반응형

출처 : 이훈영교수의 사회조사방법론


1. 회귀분석의 정의

 회귀분석이란 변수들 간의 함수관계를 분석하는 방법 중의 하나로 독립변수가 종속변수에 미치는 영향력의 크기를 파악하고, 이를 통하여 독립변수의 일정한 값에 대응하는 종속변수값을 예측하는 모형을 산출하는 방법이다.



2. 회귀분석의 전제조건

    1. 첫째, 특정한 독립변수(x)값에 해당하는 종속변수(y)값들은 정규분포를 해야하며, 모든 정규분포의 분산은 동일해야 한다.

    2. 종속변수(yi)값들은 통계적으로 서로 독립적이어야 한다.

    3. 다중회귀분석의 경우 독립변수들 간에 다중공선성(multicollinearity)이 존재하지 않아야 한다.

      • 예를 들어, 몸무게와 허리둘레가 키에 미치는 영향에 대해서 분석을 할 경우, 몸무게와 허리둘레가 서로 연관성이 높다면 정확한 회귀모형을 도출하기 어렵다.

      • 보다 극단적인 예로 몸무게와 허리둘레 대신 왼손 길이와 오른손 길이를 독립변수로 사용하여 키를 추정하는 회귀모형을 개발하고자 하는 경우, 독립변수들 간에 높은 다중공선성이 존재한다. 즉, 왼손과 오른손 길이는 서로 매우 높은 상관관계가 있으므로 마치 똑같은 값을 갖는 2개의 변수를 동시에 독립변수로 사용해서 분석하는 것과 같다. 이렇게 극단적인 경우에는 왼손의 길이나 오른손 길이 중에 어느 하나만을 독립변수로 하여 모형을 추정하는 것이 옳다.

      • 다중공선성을 진단하는 방법으로는 공차한계(tolerance)를 이용하는 방법이 있다.


3. 단순회귀분석

3.1 최소자승법을 이용한 회귀식 모형의 도출

최소자승법이란 회귀선과 관측치들 간의 차이를 제곱하여 모두 더한 값, 즉 잔차의 제곱합이 최소가 되도록 하는 최적의 직선식을 구하는 방법이다. 

잔차 : 관측치의 실제 종속변수 값과 회귀선과의 거리를 말함

3.2 회귀선의 설명력

최소자승법에 의하여 추정된 회귀선이 종속변수(Y)의 변화를 어느 정도 잘 설명할 수 있는가?
즉, 회귀선을 이용하지 않고 단순히 종속변수의 평균값(y)을 이용하여 예측할 때 발생하였던 편차를 회귀선이 어느 정도 흡수하여 설명함으로써 줄일 수 있는가? 이러한 회귀선의 설명력을 나타내는 지수로써 결정계수가 있다.

결정계수란 : 평균값으로 관측치의 값을 추정하였을 경우에 발생하는 편차를 추정된 회귀선이 어느 정도 줄일 수 있는가, 즉 전체 편차 중에 회귀선이 설명하여 줄일 수 있는 부분의 비를 말한다.

설명력이 높은 바람직한 회귀선일수록 총제곱함 중에서 회귀선으로 설명되는 제곱합이 차지하는 비율이 높아 결정계수 (R2)값이 1에 가까워진다.

3.3 회귀식 모형의 적합도 분석

회귀모형의 적합도분석이란 회귀식을 도출하는 데에 사용된 자료가 모집단이 아니고 표본인 경우에 표본으로 추정된 회귀모형이 어느 정도 믿을만한가에 대한 분석과 검증이다. 즉, 모집단에서 추출된 일부 표본만을 이용해서 추정된 회귀모형을 모집단 전체로 일반화하여 확대적용하여 사용해도 괜찮을 만큼 추정된 회귀식이 통계적으로 유의한가에 대한 검정이다.

이와 같은 회귀식의 통계적 유의성 검정을 회귀모형의 적합도분석이라 하며, 이때 사용하는 대표적인 방법으로는 추정값의 표준오차를 이용하는 방법과 분산분석표를 이용하는 방법이 있다.


반응형
AND