무수한 데이터들 중 내가 분석하고픈 데이터만 콕! 찝어서 보고싶을 때 혹은 데이터를 범주별로 나누어 시각화하고 싶을 때 등 간단한 방법으로 원데이터를 변환하여 결과를 보기 쉽게 나타낼 수 있다. 오늘은 <데이터변환> 中 꼭 알아두어야 할 몇 가지 방법을 알아보자.


* 아래 세 가지 주제를 순차적으로 살펴보도록 하자.

1. 케이스선택

2. 코딩변경

3. 변수계산


예시)

 <설문지>

1. 성별 : ① 남   ② 여

2. 학년 : (       )

3. 악기 : ① 클라리넷   ② 플룻   ③ 트럼펫   ④ 트럼본  ⑤ 색소폰

4. 악기를 배운기간 : ① 6개월미만  ② 6개월~1년  ③ 1년~2년  ④ 2년~3년  ⑤ 3년~4년

5. 오케스트라활동에 대한 만족도 : ① 매우불만족  ② 불만족  ③ 보통  ④ 만족  ⑤ 매우만족


먼저, 위 설문지를 토대로 아래와 같이 데이터를 입력해준다.


1. 케이스 선택(Select Cases)

전체케이스가 아닌, 내가 보고자 하는 특정 케이스로 분석하고 싶을 때 사용하는 방법이다.

예를들어, 악기구분에서 클라리넷을 연주하는 학생에 대한 결과만 보고자 할 때 사용할 수 있 다.


1) spss상단메뉴에서 데이터>케이스선택을 클릭하면 아래와 같이 창이 뜬다.

여기에서 내가 선택하고자 하는 케이스의 조건을 설정하기 위해 <조건을 만족하는케이스 : 조건>을 클릭한다.

2) <조건> 대화상자에서 내가 분석하고자 하는 케이스를 수식으로 표현하여 설정할 수 있다.

   클라리넷을 연주하는 학생의 결과만을 보고자 할 땐 [악기=1]을 입력해주면 끝!

✽ 이외에도 1학년~3학년 학생의 결과만을 도출하고자 할 경우 [학년<=3] 

여자이면서 클라리넷을 연주하는 학생의 결과만을 보고자 할 경우 [성별=2 and 악기=1] 으로 설정할 수 있다.

(다양한 수식과 관련해서는 아래 표를 참고!)


3) 케이스를 선택하고 나면 조건에 맞지 않는 케이스는 제외된 것을 알 수 있다. 



2. 코딩변경(Recode)

코딩변경은 변수 내 범주를 합치거나 조합할 때 또는 역문항 코딩 시 유용하게 쓰인다.

코딩변경에는 같은 변수로 코딩변경 / 새로운 변수로 코딩변경으로 나뉘는데 <같은 변수로 코딩변경>은 내가 변경한 데이터가 기존 변수에 대체되는 것이고, <새로운 변수로 코딩변경>은 기존 변수는 그대로 유지되어 있지만 내가 수정한 데이터가 하나의 변수로 새롭게 생성되는 것이다.


절차는 동일하니 <새로운 변수로 코딩변경>을 살펴보도록 하자. 위의 예시 中 5가지 악기를 목관악기(클라리넷, 플롯, 색소폰)와 금관악기(트럼펫, 트럼본)로 범주를 변경하여 새로운 변수를 만들어보자.
 

1) spss 상단메뉴에서 변환>새로운 변수로 코딩변경을 클릭한다.


2) 여기에서는 기존변수를 토대로 새로운 변수가 만들어지기 때문에 생성될 변수의 이름과 설명을 지정해주어야 한다.

변환하고자 하는 변수를 상자로 옮긴 후 결과변수의 이름과 레이블 을 입력해보자.


3) 다음은 변수의 값을 나의 목적에 맞게 변경하는 작업이다. 목관악기를 ‘1’로 금관악기를 ‘2’로 두어 기존 값과 새로운 값을 지정해주면 된다.

✽ 위와 같이 값을 하나씩 변경해주는 방법 외에도 범위를 지정하여 설정하는 방법,

구간.비율척도(연속형)일 경우 분위 수에 따라 특정 값의 범위를 주어 범주를 나눌 수도 있다.


4) 지정한 값에 맞게 변수가 새로 생성된 것을 알 수 있다.


새로운 범주로 변환한 악기구분변수로 빈도분석을 하면 이렇게 범주별로 빈도를 볼 수 있다.



3. 변수계산

변수간의 연산을 통해 새로운 변수를 만들고자 할 때 사용하는 방법이며 산술식이나 여러 가지 함수를 이용하여 내가 분석하고자 하는 변수 값을 산출할 수 있다.


아래 데이터 예시(읽기, 쓰기, 수학 점수)를 통해 전체점수 평균을 구하여 보자.


1) spss상단메뉴에서 변환> 변수계산을 선택하면 아래 대화상자가 나타난다.

대상변수에는 계산을 통해 새로 만들어지는 변수이름을 입력하고 숫자 표현식에는 내가 보고자 하는 값을 표현하는 수식을 입력하면 된다.

그리고 확인을 눌러주면 끝~!


2) 수식에 맞게 변수가 만들어진 것을 볼 수 있다.


✽ 변수계산은 나의 목적에 따라 원데이터를 변환할 수 있는데, 단위를 바꾸거나 (mm->cm 등)

설문문항의 경우 항목별로 평균점수를 내어 결과를 보고 싶을 때, 사전과 사후 점수 간 차이를 나타내고 싶을 때 주로 사용된다.

수식은 아래와 같이 연산자와 함수로 다양하게 표현할 수 있다.

구분

 설명

 연산자

  + (덧셈), - (뺄셈), * (곱셈), / (나눗셈), ** (거듭제곱)

 함수

 통계

 Max(최대값)  Min(최소값)  Mean(평균)  Sum(합계)  Variance(분산)

 Sd(표준편차)  Median(중위수)

 산술

 ABS(절대값)

 EXP(지수 e(x승))

 NORMAL(표준편차) : 정규분포를 갖는 확률변수 값 

 SQRT(제곱근)

 TRUNC(소수 이하를 버림) 

 논리식

 & (AND) : 모두 참인 경우

 | (OR) : 적어도 하나 이상 참인 경우

 ~ (NOT) : 참은 거짓으로, 거짓은 참으로 연산

 관계식

 =(같다) , ~=(같지않다)

 <(작다) , <=(작거나 같다)

 >(크다) , >=(크거나 같다)


내가 알고자 하는 목적에 맞게 원데이터를 변환하는 방법은 이후(t-test, 상관분석, 분산분석 등)에도 유용하게 쓰일테니 오늘 정리한 내용을 꼭 기억하길 바라며!! 다음시간에는 t-test를 살펴보도록 하자~