많은 데이터를 접하면 데이터의 성격이 각각 다름을 느낄 수 있을 것이다.
본격적으로 분석에 들어가면 우리가 무엇을 평가할 것인지, 데이터의 종류는 무엇인지에 따라 분석방법을 달리해야하기 때문에 자료들의 종류를 먼저 파악하는 것이 중요하다.
따.라.서 오늘 살펴볼 교차분석 전에! 데이터의 종류에 대해 먼저 알아보도록 하자.
크게는 범주형자료(categorical/qualitative)와 연속형자료(Numerical/quantitative)로 구분할 수 있다.
범주형자료는 질적자료로서 명목척도, 서열척도가 이에 해당한다.
명목척도 : 대상을 특성에 따라 카테고리로 분류하여 기호를 부여한 것이다.
ex) 성별, 이름, 악기, 번호, 지역 등
서열척도 : 대상의 특성들을 구분할 수 있으며 이들 사이의 상대적인 크기를 나타낼 수 있고 서로 간 비교가 가능한 척도이다. ex) 교육정도(중졸, 고졸, 대졸 이상), 선호도 순위, 학점
연속형자료는 양적자료로서 등간척도, 비율척도가 이에 해당한다.
등간척도 : 상호간의 서열뿐 아니라 인접한 두 변수 값의 차이가 일정한 변수이다.
ex) 온도, IQ, 시각, 만족도 등
비율척도 : 상호간 서열, 크기 차이, 크기의 비교, 특성들 간의 계산까지 가능한 척도이다.
ex) 몸무게, 키, 나이, 길이, 임금 등
사실 척도에 대해 살펴본 이유는 오늘 소개할 분석방법과 관련이 있기 때문이다.
오늘 살펴볼 <교차분석>은 검증하고자 하는 변수가 모두 범주형자료(명목척도, 서열척도) 일 때, 두 변수 간 연관성이 있는지 보기위한 방법이다. 교차분석을 통해서 두 변인 간 교차빈도(교차표)를 볼 수 있고, 교차빈도에 대한 통계적 유의성을 검증하여 두 변인 간 연관성이 있는지에 대하여 알 수 있다.
백마디 말보다 직접 해봐야 이해가 쏙쏙 될터이니! 하나의 예시를 통해 같이 살펴보자.
<설문지>
1. 성별 : ① 남자 ② 여자
2. 나이 : ( ) 세
3. 악기 : ① 금관악기 ② 목관악기 ③ 타악기
4. 악기를 배운기간 : ① 6개월미만 ② 6개월~1년 ③ 1년~2년 ④ 2년~3년 ⑤ 3년이상
5. 올키즈스트라 활동에 대한 만족도 : ① 매우불만족 ② 불만족 ③ 보통 ④ 만족 ⑤ 매우만족 |
1. 위 설문지를 토대로 아래와 같이 데이터를 입력해준다.
보통 설문지를 분석할 때 기본사항에 해당하는 것이 ‘명목척도’인 경우가 많다.
위 변수 중에서 <성별>,<악기>가 이에 해당되기 때문에 독립변수를 성별, 종속변수를 악기로 두고 분석을 진행해보자.
교차분석으로 두 변인 간 관련성을 볼 수 있으므로 아래와 같이 가설을 세울 수 있다.
귀무가설 : 성별에 따른 악기(구성) 분포가 다르지 않다.
대립가설 : 성별에 따른 악기(구성) 분포가 다르다. |
2. 데이터 입력 후 spss상단메뉴에서 분석>기술통계량>교차분석을 선택하면 아래와 같이 창이 뜬다.
<행>에는 내가 독립변수로 설정한 ‘성별’을 열에는 종속변수로 설정한 ‘악기’를 넣어준다.
3. 변수를 해당란에 넣어준 뒤, 우측상단 <통계>를 클릭!
4. <통계> 대화상자에는 우리가 분석하기 위해 사용할 검정통계량을 선택하도록 제시하고 있다.
여기에서는 교차분석에서 쓰이는 검정방법인 <카이제곱>을 체크해준다.
★ 카이제곱 검정이란?
카이제곱 검정은 관찰된 빈도가 기대되는 빈도와 유의미하게 다른지의 여부를 검증하기 위해 사용되는 방식이다. 우리가 살펴볼 것은 독립성 검증으로 변인이 두 개 이상일 때 두변인이 서로 상관이 없고 독립적이라고 기대하는 것을 의미하며 (실제로 나온)관찰빈도 (각 셀에서 통계적으로 기대할 수 있는)기대빈도 간에 얼마만큼의 차이가 있는지를 카이제곱 분포를 참조해 통계적으로 검증하는 기법이다. 카이제곱 값은 χ2 = Σ (관측값 - 기댓값)2(<-제곱) / 기댓값 으로 계산된다.
4. 다시 교차분석 대화창에서 우측의 <셀>을 클릭하면, 교차표에서 출력되는 항목을 선택할 수 있도록 제시하고 있다.
여기서 <관측빈도>와 <행>, <총계>, <잔차>를 체크한 뒤 확인을 눌러주면 끝!
<결과해석>
<교차표>를 보면 각 항목별 빈도와 분포를 알 수 있다. 남학생 중 40명(64.5%)는 금관악기, 10명(16.1%)이 목관악기, 12명(19.4%)이 타악기를 담당하고 있고 여학생 중 14명(24.1%)는 금관악기, 38명(65.5%)이 목관악기, 6명(10.3%)가 타악기를 구성하고 있음을 알 수 있다.
기대빈도와의 잔차를 보면, 남자는 금관악기와 타악기가 각각 12.1명, 2.7명 많고 여자는 목관악기가 14.8명 많다. 즉, 여자는 목관악기가 많고 남자는 금관악기와 타악기를 구성하는 비율이 높음을 알 수 있다.
<카이제곱 검정>결과 (p값 : 0.000)에 따라 귀무가설이 기각되어 성별에 따른 악기(구성) 분포가 다르다고 할 수 있다.
오늘은 범주형자료 간의 연관성을 검증해보는 교차분석에 대해 살펴보았다.
앞으로 분석을 하기 전, 데이터의 종류를 생각하고 적합한 분석을 할 것을 기억하면서!!
다음시간에는 데이터를 선택하고 변환해서 내가 보고자 하는 자료만 한눈에 볼 수 있도록 하는 방법 <데이터변환>을 살펴보자!
댓글