SPSS를 활용한 쉬운통계 8.분산분석

by 함께걷는아이들 2019.05.02 18:46

두 집단의 평균을 비교하는 T검정과 달리, 분산분석은 이를 더 확장하여 세 개 이상의 평균을 비교하는 데에 사용된다.


그 중에서도 일원배치 분산분석은 한 요인이 종속 변수에 영향을 주는지에 대해 알아볼 수 있다. 아래 활용 예시를 보면서 자세히 살펴보도록 하자.


<예시>


- 악기(관악/현악/타악)별로 음악프로그램에 대한 만족도에 차이가 있는가?

- 교재(A/B/C/D)를 사용한 각 집단의 영어성적에 차이가 있는가?

- 사회계층(상.중.하)에 따라 생활만족도에 있어 차이가 있는가? 등


이처럼 한 요인(독립변수)안에서 케이스가 다른 세 개 이상의 집단들에 대한 평균을 비교해볼 수 있다. 이 때 가설을 아래와 같이 세울 수 있게된다.

☞ 귀무가설 : 집단에 따라 평균의 차이가 없다.

☞ 대립가설 : 집단에 따라 평균의 차이가 있다.


그럼 이제 본격적으로 과정을 살펴보도록 하자.

오늘은 3가지 <교수법>에 따른 시험성적의 평균에 차이가 있는지 없는지 예시를 통해 살펴보려 한다. 

아래와 같이 교수법은 1=A, 2=B, 3=C 으로 구분하여 값을 입력하고, 각 케이스에 대한 시험성적은 총 120개(수준별로 30개 이상) 케이스를 입력하였다.



잠깐~!! 분석을 하기전에! 

일원배치 분산분석을 하기 위해서는 다음의 가정을 만족해야 한다.

☞ 정규성의 가정

케이스가 많을 경우(집단별로 30개 이상)에는 중심극한정리에 의해 데이터셋이 정규분포에 가까워져 정규성 검토 없이 분석을 할 수 있으나, 표본 수가 적은 경우는 정규성의 검토가 반드시 필요하다.

*SPSS에서의 정규성 검토 방법 : 분석>기술통계량>데이터탐색>도표 대화창에서 ‘검정과 함께 정규성도표’ 클릭 후 유의확률값을 확인한다.


☞ 등분산의 가정

집단 간의 평균 차이를 검정할 때에는 각 집단의 분산이 같다는 가정을 만족해야 한다.

이는 분산분석 검정 결과에서 확인할 수 있으니 이후 다시 살펴보도록 하자.


사용되는 변수의 척도는 요인변수(독립변수)는 명목이나 순서척도, 종속변수는 구간.비율척도이어야 한다. 위 변수에서는 <교수법>은 명목척도, <시험성적>은 구간비율 척도에 속한다는 것을 알 수있다.

☞척도가 헷갈린다면? 클릭!



그럼 이제 분석에 들어가보자~


1. spss상단메뉴에서 분석>평균비교>‘일원배치 분산분석’을 선택하면 아래와 같이 창이 뜬다.

종속목록에는 차이를 알고자하는 변수(시험성적)를, 요인에는 집단 간의 차이를 비교하는 대상인(교수법)을 넣어준다.


2. 더 상세한 결과들을 얻기 위해 대화상자 왼쪽에 있는 사후분석 버튼을 클릭!

사후분석은 세 집단간의 평균에 유의미한 차이가 있는지 없는지를 밝히는 것을 넘어 유의한 차이를 갖는 집단이 어느것인지를 <다중비교>를 통해 알 수 있게 해준다.

spss에서는 다양한 다중비교방법들을 제공하는데, 평균값의 대소관계를 파악하는 방법에 따라 선택하여 사용할 수 있다. 주로 사용하는 방법은 아래와 같다.

▸bonferroni : 각 검정에 대한 오차비율을 조정해서 전체 오차비율을 통제하는 기법으로, 각 집단의 수가 동일하지 않는 경우에 사용함.

▸scheffe : 모든 대비를 이용하여 사용되는 기법. 사후분석방법 중 가장 보수적으로 집단을 소극적으로 분리시킴.

집단의 수가 동일하지 않은 경우에도 사용할 수 있음.

▸Duncan : 각 처리의 평균을 크기순으로 나열하여 가장 큰 것과 작은 것부터 비교하는 기법.
▸Tukey : 집단의 수가 동일한 경우 사용하는 사후분석. A,B,C 집단이 각 40명으로 동일한 경우에 해당.

상대적으로 집단을 분리하는 정도가 낮은 특징이 있음.


3. 옵션창에서 기술통계, 분산동질성검정을 클릭! 해준다.


이제 결과를 해석해보자~


기술통계 결과를 보면 교수법(집단)에 따른 평균점수를 확인할 수 있다.

세 그룹 중 C->B->A의 순으로 점수가 높은 것을 알 수 있다.


그리고 위의 표는 분산의 동질성을 검정한 결과를 나타내주고 있다.

앞서 분산분석에서의 가정을 기억하는가?

분산의 동질성을 검정한 결과에 따르면 유의확률 값이 0.083, 유의수준이 5%(0.05)보다 크므로 등분산의 가정이 만족되어 분석결과를 사용할 수 있게 된다.



분산분석 결과, F통계량 값은 7.090 유의확률 p=0.001으로 귀무가설이 기각되어 교수법에 따

른 시험성적에 차이가 있음을 알 수 있다.



분산분석은 여기까지의 결과로 결론을 내릴 수 있지만, 

각 그룹 간에 어떠한 차이가 있는지 알기 위해 사후검정 결과를 살펴볼 수 있다. 


위의 사후검정 결과에서 유의미한 것만 살펴보면, A와 C의 평균차이는 약 19점이고 검정의 유의확률이 0.001로 두 그룹 간에 유의미한 차이가 있음을 말해준다. A와 B, B와 C 그룹간에는 8~9점의 점수차는 있으나 유의미한 차이가 있다고 볼 수 없다.




이렇게 통계분석에서 자주 쓰이는 평균검정 T-test에 이어 분산분석을 알아보았다.

변수간, 집단 간의 연관성을 볼 때 쓰이는 검정은 대게 실험계획에 의해 얻은 데이터를 분석하기 위해 사용된다. 집단 간의 연관성을 볼 때에는 외적변수에 대한 영향을 최소화 시킬 수 있어야 결과에 대한 신뢰성이 올라갈 수 있기 때문이다.


오늘 예시로 든 교수법에 따른 시험성적의 경우도, 다양한 외적변수(학습수준이 동등한 조건, 같은 교사가 교재만 달리 지도한 조건 등)가 통제되었다는 가정하에 활용한 것이므로 데이터를 사용할 때에는 결과에 대한 신뢰도를 가져올 수 있는 것인지부터 먼저 생각하여 계획하고 데이터를 수집할 수 있도록 하자~!