선형회귀분석(Linear Regression Analysis)은 독립변수와 종속변수가 선형적인 관련성이 있다는 전제하에, 변수들 간의 관계를 선형 함수식으로 모형화하기 위한 분석방법이다. 

변수 간의 관계를 함수식으로 정리할 수 있다면, 특정값을 예측하기에 더욱 용이해 질 수 있지 않을까?

회귀분석은 하나의 종속변수에 하나의 독립변수가 있을 때, 단순 선형 회귀분석이라 하며, 2개 이상의 독립변수가 있을 때는 다중회귀분석이라 한다. 오늘은 단순 선형 회귀분석에 대해 알아보자~!


앞서 말한 선형 함수식은 무엇을 말하는 걸까? 

아래 그래프에서 주황색 점들이 주어진 데이터라면, 초록색 선은 데이터들을 대표하는 하나의 직선으로 볼 수 있다. 이 때, 이 선을 함수로 표현한 것이 Y=aX+b 라는 선형 관계식인 것이다. 이때 a는 기울기를 뜻하며, 독립변수 X가 한 단위 증가할 때, Y값의 변동량을 뜻한다. b는 y절편을 의미하며, a와 b값은 데이터로부터 추정해야 하는 값을 말해준다.


오차는 초록색 선(회귀선) 위의 값(=추정된 예측값)과 실제값(주황색 점)들 간의 차이를 말한다. 오차를 언급하는 이유는, 데이터들을 대표하는 적합한 회귀선을 찾기 위해 사용되는 개념이기 때문이다. 아래 그림을 보면, 각 데이터들의 오차를 볼 수 있다. 회귀분석은 이렇게 오차를 최소화 하는 회귀선을 추정해 a와 b값을 찾게 된다. 이 방법을 최소제곱법이라 한다.


<회귀분석의 기본 가정>

앞서 오차의 개념을 설명했는데, 회귀분석의 가정에서는 오차의 추정치인 잔차 e를 통해 가정을 검토하게 된다. 이를 잔차분석이라고 한다. 아래 가정들은 결과 해석 중간중간 확인할 예정이니 잘 기억하고 있자!

1. 오차항이 정규분포를 따르는가

2. 오차항의 분산이 독립변수와 종속변수값에 관계없이 일정한가=등분산성

3. 오차항들 간에 자기상관이 없는가(독립성) -> 더빈왓슨 검정으로 확인!



그럼 본격적으로 예시를 통해 자세히 살펴보자. 

* 회귀분석은 독립변수와 종속변수 모두 양적인(연속형) 변수여야 함을 주의!

오늘은 ‘수업참여기간(1~12개월)’과 ‘수학점수’ 데이터로 회귀분석을 해보자. n=48



1. spss상단메뉴에서 분석>회귀분석>‘선형’을 선택하면 아래와 같이 창이 뜬다. 독립변수와 종속변수란에 분석하고자 하는 변수를 각각 넣어주고 방법은 입력(enter)으로 설정한 다음, 우측의 <통계> 버튼을 클릭해보자.



2. 통계창에서는 추정값, 모형적합, Durbin-Watson을 선택해주고 계속을 클릭!



3. 다시 메인 창으로 돌아가서 <도표>버튼을 클릭한 후, X축변수와 Y축변수를 아래와 같이 입력해주고, 표준화잔차 도표에서 정규확률도표를 선택해준다. 

*앞서 보았던 회귀분석의 가정을 만족하는지 살펴보기 위함이다. 그리고선 확인을 클릭하면 끝!

DEPENENT : 종속변수

*ZPRED : 표준화된 예측값

*ZPESID : 표준화된 잔차

*DRESID : 삭제된 잔차

*ADJPRED : 수정된 예측값

*SRESID : 스튜던트화된 잔차(잔차/잔차의 표준오차)

*SDRESID : 스튜던트화된 삭제된 잔차



이제 결과를 해석해보자~!  



[모형 요약 표]에서는 R제곱 값을 통해 독립변수(참여기간)이 종속변수(수학점수)를 얼마나 잘 설명하는 지 알 수 있다. R은, 상관분석에서 두 변수 간 선형적 관련 정도를 나타내는 상관계수임을 살펴보았다. R제곱 역시 0에서 1까지의 값을 가지며, 1에 가까울수록 설명력이 높다고 할 수 있다. 결과를 보면, 99.1%의 높은 설명력이 있음을 알 수 있다.


다음으로, 잔차의 독립성 가정을 만족하는지 보기 위해 Durbin-Watson 결과를 살펴보자. 잔차의 자기상관을 검증하는 방법인 Durbin-Watson은 잔차가 다른 잔차에 영향을 미치는 지를 알 수 있다. 0~4까지의 값을 가지며 2에 가까울수록 자기상관이 없고 독립성이 있다고 볼 수 있다. (0에 가까우면 양의 자기상관이 존재, 4에 가까우면 음의 자기상관이 존재) 위의 결과 값 1.823은 2에 가까운 값이므로 독립성의 가정을 만족함을 알 수 있다. 




모형에 대한 적합도 검정

두 번째 분산분석표를 통해서는 독립변수가 종속변수에 영향을 주는지 알 수 있다. 여기서 분산분석은 세 그룹 간의 평균 차이 검정이 아닌, 회귀식이 통계적으로 유의미한지 여부를 검정하는 것이다. 위의 결과를 보면, F=5007.238, 유의확률 p값은 0.05보다 작으므로 회귀식이 통계적으로 유의미함을 알 수 있다. 



 회귀계수에 대한 검정

설정한 회귀모형이 유의미하다는 결론이 내려지면. <계수>표를 통해 추정된 회귀계수는 무엇이며 독립변수는 어느정도의 영향을 주고 있는지, 회귀계수는 적합한지에 대해 확인할 수 있다. 우선, 비표준화 계수를 값을 통해 회귀식을 아래와 같이 표현할 수 있다. 

Y(수학점수) 7.153X(참여기간)  4.624

참여기간이 1개월 증가할수록 수학점수는 7.153만큼 커진다는 것을 의미한다. 베타값은 독립변수의 영향력을 나타낸다. 1에 가까울수록 영향력이 높다는 것을 말한다. 유의수준은 0.000으로 회귀계수가 통계적으로 유의미하며, 이는 독립변수가 종속변수에 영향을 준다는 것을 뜻한다.


잠깐! 끝내기 전에~ 앞서 회귀분석의 가정을 기억하는가?

아직 잔차의 정규성과 등분산성(분산이 독립변수와 종속변수값에 관계없이 일정한가)을 살펴보지 않았다. 좀 전에 도표창에서 선택한 결과에 따라 아래와 같은 그래프가 출력되었다. 아래 도표는 잔차의 분포가 정규분포를 따르는지 볼 수 있는 정규확률도표이다. 대각선에 가깝게, 크게 벗어난 이상값 없이 분포하는 것으로 보아 정규성을 만족하는 것으로 판단할 수 있다.



다음의 산점도는 잔차의 분포를 나타내고 있다. 데이터가 특정한 분포를 띄지 않고 일정한 분포를 보이는지는 일반적으로 X축과 Y축 모두 –2와 2 사이에 분포하고 있으면 등분산의 가정을 만족하는 것으로 볼 수 있다.






| 1 2 3 4 5 ··· 9 |