http://blessps.blogspot.com/2008/10/blog-post.html
<회귀분 석> 회귀진단
⇒ 회귀분석에서 주어진 데이터의 특이성에 대한 진단을 말하며, 영향력 있는 데이터, 독립변수들 간의 공선성의 검색 등이 다루어진다. 즉, 회귀진단이란 주어진 데이터세트와 이 데이터세트를 사용해서 추정한 회귀모형 사이에 서로 일치되지 않는 점들을 찾아내는 과정이다.
회귀진단 추정된 회귀모형에 관한 진단(model criticism) - 모형진단
주 어진 데이터에 관한 진단(data criticism) – 데이터진단
2. 모형진단
(1) 오차항에 관한 가정의 검토
⇒ 선형회귀모형에서 오차항이 Gauss-Markov조건을 만족한다고 가정했다. 즉, 오차항이 독립성과 등분산성을 만족하고, 정규분포를 갖는다는 가정을 했다. 오차항이 이러한 조건들을 만족한다는 가정하에서 회귀분석이론을 전개하였으므로, 추정된 회귀모형이 이 조건을 만족하는지를 검토해야 한다. 오차항에 관한 이러한 가정들의 검토는 잔차분석을 통해서 이루어진다.
(2) 적절한 회귀모형의 선택
⇒ 변수들에 대해서 선택된 선형회귀모형이 가장 적절한가 아닌가를 검토해 볼 필요가 있다. 주어진 데이터세트를 그대로 선형회귀모형에 적합 시키기보다는 종속변수 y를 등으로 변수변환하거나 설명변수 를 변수변환하는 것이 바람직한 경우가 많다. 또한, 설명변수 가 종속변수 y에 전혀 영향을 주지 못하는 경우에는 선형회귀모형에서 설명변수를 제거시키는 것이 바람직하다.
(3) 설명변수들간의 다중공선성 검토
⇒ 설명변수들 사이에 다중공선성(multicollinearity)문제가 존재하면, 행렬 X’X의 역행렬을 구하기가 어렵고, 또한 계산의 정확도가 떨어진다. 더구나 회귀계수추정량의 분산이 커져서 회귀식의 신뢰성이 떨어진다. 따라서, 큰 다중공선성이 존재한다면, 설명변수들의 일부를 선형회귀모형에서 제거하거나 편의추정법들을 사용한다.
3. 데이터진단
(1) 이상점의 검출
⇒ 종속변수 y의 관찰값들 중에는 측정상 또는 실험상의 과오로 인해서 조사대상이 되는 종속변수의 모집단에 속하지 않는다고 의심이 될 정도로 정상범위 밖 아주 멀리 떨어진 관찰점을 이상점(outlier)이라고 한다. 이상점은 대개 절대값이 큰 잔차를 발생시키므로 식별하기가 용이하다.
(2) 지레점의 검출
⇒ 설명변수들의 관찰벡터가 관찰점들의 산점도의 중앙에서 멀리 떨어져 있으면, 이 관찰점을 큰지레점이라고 한다. 큰지레점은 회귀식에 큰 영향을 미치므로 자세히 검토해야 한다.
(3) 영향점의 검출
⇒ 추정된 선형회귀모형이 몇 개의 관찰점들에 크게 영향을 받는 경우가 있다. 이처럼 회귀모형의 추정결과에 영향을 크게 미치는 관찰점을 영향점이라고 한다. 영향점을 포함시켜 회귀분석을 한 결과와 이 관찰점을 제외하고 회귀분석을 한 결과는 큰 차이를 보인다.
4. 잔차들의 산점도
● 일반적으로 선형회귀모형에서는 오차항들이 서로 비상관이고 동일한 분산을 갖는다는 Gauss-Markov 조건을 만족한다고 가정한다. 때때로 오차항이 정규분포를 갖는다고 가정하기도 한다. 따라서, 회귀분석의 결과를 가지고 이와 같은 가정들이 타당한지를 검토해 볼 필요가 있다. 잔차를 오차항의 관찰값으로 해석할 수 있으므로, 잔차들을 분석해 봄으로써 오차항에 대한 가정들의 성립 여부를 조사할 수 있을 것이다.
● 잔차분석의 첫 단계는 잔차들의 산점도를 그려서 추정된 선형회귀모형이 주어진 데이터세트에 적합한가 또는 적합하지 않은가를 직관적으로 판단해 보는 것이다. (i = 1, 2, 즉, 잔차는 관찰값에서 추정된 선형회귀모형으로 설명할 수 없는 부분을 나타내며, 또한 오차항의 관찰값으로 해석할 수 있다. 따라서, 오차항에 대한 가정들이 성립하는지 여부는 잔차를 검토해 봄으로써 알 수 있다. 만일 산점도들이 어떠한 특별한 형태를 보이면, 추정된 선형회귀모형이 주어진 데이터세트에 적합한 것이 아니라고 할 수 있다. 잔차들의 산점도들을 그려 봄으로써, 선형회귀모형을 최소제곱추정하기 위해서 부가한 가정들이 옳았는가를 검토할 수 있다.

1) Gauss-Markov 조건이 만족되었다고 판단한다. 즉, 추정된 선형회귀모형이 주어진 데이터세트에 적절하다고 할 수 있다.
2) 오차항 분산이 일정하지 않다. 이 경우에는 종속변수를 변수변환하거나 가중최소제곱추정법을 사용한다.
3) 선형회귀모형의 추정에서 계산착오가 있는 경우이다. 이러한 경우에는 상수항을 추가하거나, 필요 없는 설명변수를 선형회귀모형에서 제거하거나 또는 적합한 을 새로운 설명변수로 추가한 선형회귀모형을 사용한다.
4) 선형회귀모형에서 필요한 설명변수가 사용되지 않은 경우이다. 특히 설명변수의 비선형효과가 회귀모형에 반영되지 않은 경우이다. 이러한 경우에는 설명변수의 제곱항 등을 새로운 설명변수로 추가하거나 종속변수를 변환시킬 필요가 있다.
5. 선형성 (Linearity)
(1) 선형성 진단방법
1) 설명변수와 종속변수의 산점도를 이용하여 이차함수형태를 확인한다.
2) 잔차와 예측치의 산점도를 이용하여 이차함수형태를 확인한다.
(2) 해결방법
⇒ 산점도를 보면 종속변수와 설명변수의 직선(선형) 관계를 진단할 수 있다. 잔차와 예측치의 산점도가 일정한 함수형태를 가지면(이차함수) 선형성이 무너지게 되는데 이를 해결하려면 설명변수의 이차항을 설명변수로 추가한다. 이차항을 추가할 때는 설명변수를 표준화 한 후 넣으면 다중공선성 문제가 완화된다.
6. 오차항의 독립성
● 선형회귀모형에서 종속변수가 시간 또는 위치에 영향을 받는 시계열데이터인 경우에는 이웃하는 관찰값들 사이에 상관관계가 있을 수 있다. 만일 오차항들이 서로 독립이라면, 잔차들은 난수성(randomness)을 보일 것이다. 반면에, 잔차들이 난수성을 보이지 않으면, 오차항들 사이에 상관관계가 있다고 할 수 있다.
● 오차항의 독립성을 검토해 보는 가장 간단한 방법은 잔차대 시점의 산점도와 시차를 갖는 잔차들의 산점도를 그려서 눈으로 확인해 보는 것이다. 산점도 이외에도 Durbin-Watson통계량, 런검정, 스펙트럴검정 등이 존재한다.
● 시계열데이터에서는 이웃하는 관찰값들 사이에 상관관계가 존재하는 것이 일반적이며, 이러한 데이터세트를 자기상관 되었다고 한다. 오차항의 자기상관은 Durbin-Watson의 d통계치로 확인 할 수 있다. D통계치의 정확한 임계치는 알려져 있지 않으나, 만일 d통계치가 유의미한 것으로 나타나면 오차가 자기상관을 갖는 것으로 판단하여 잔차의 독립성을 가정할 수 없게 된다. 보통 d값은 공식에 따라 0과 4의 범위를 갖는데, 완전 정적상관일 때 대략 0의 값을 갖고 완전 부적 상관일 때 4의 값을 갖는다. 따라서 d값이 2에 근접할 때 잔차가 독립적인 것으로 해석한다.
● 오차항들이 서로 독립적이라는 가정이 만족되지 않는 경우에는 일반화최소제곱부정법을 사용해서 선형회귀모형을 추정한다.
7. 오차항의 등분산성
● 선형회귀모형에서 최소제곱추정법이나 최우추정법을 적용할 때 오차항들의 분산이 일정하다고 가정한다. 만일 오차항분산이 일정하지 못하면, 오차항이 이분산성을 갖는다고 한다. 앞에 설명 했듯이 잔차분석을 하기 위해서는 잔차들의 산점도를 살펴보는 것이 필수적이다.

< 적합값 대 잔차제곱의 산점도 >
1) 이분산성이 존재하지 않는다.
2) 적합값이 커지면 분산도 커지는 전형적인 이분산성이 존재하는 경우이다
3) 분산이 적합값의 멱함수 형태를 갖는 경우이다.
4) 분산이 적합값의 지수함수 형태를 갖는 경우이다.
● 오차항의 등분산성을 진단하는 방법에는 산점도 이외에도 White검정법, Glejser검정법, 상관계수들을 사용하는 검정법, Goldfeld-Quandt검정법 등이 있다.
● 만일 오차항이 이분산성을 가지면, 가중최소제곱추정법(weighted least squares method)을 사용하거나 종속변수를 변수변환시켜서 최소제곱추정법을 적용한다. 이러한 목적으로 변수를 변환시키는 것을 분산안정화변환이라고 한다.
8. 오차항의 정규성
● 데이터세트의 정규성을 조사하기 위해서는 잔차들의 히스토그램, 줄기잎그림과 상자그림을 그려 본다. 그러나, 이들은 통계분석자의 경험을 바탕으로 결론을 내야 하는 객관성이 결여된 방법들이다. 오차항의 정규성을 검정하는데 유의할 점은 관찰점들의 개수가 적은 경우에는 잔차분석만으로 정규성검정을 하기 어렵다는 것이다.
● 데이터세트의 정규성을 조사하는 가장 일반적인 방법은 데이터세트를 정규확률종이에 그려 보는 것이다. 정규확률종이란 누적정규분포가 직선으로 표현되도록 만들어진 모눈종이를 말한다. 정규확률종이에 그림을 그리는 방법은 X축에 관찰값들을 크기순서로 나열하고 Y축에 각 관찰점들에 해당하는 누적확률을 표시한다. 이 누적확률곡선이 직선에 가까우면 데이터세트가 정규분포를 갖는다고 할 수 있으나, 그렇지 않은 경우는 정규분포를 갖는다고 말하기 어렵다. 오늘날에는 통계패키지의 발달로 인해서 정규확률종이를 사용하지 않고 컴퓨터가 그려주는 정규확률산점도를 사용한다.
● 오차항이 정규성을 갖지 않는 경우에는 종속변수를 변수변환하거나 선형회귀모형에 설명변수들을 추가 또는 삭제해서 오차항이 정규성을 갖도록 한다.
9. 다중공선성(multicollinearity)
● 설명변수들간에 상관관계가 존재할 때 다중공선성이 있다고 한다. 다중회귀모형의 모수를 추정하는 경우에 설명변수들간에 완전한 선형관계가 존재해서는 안 된다. 그러나 현실적으로 특히 시계열자료를 이용한 회귀분석에서는 어느 정도의 상관관계가 존재한다. 즉 설명변수들간에 어느 정도의 상관관계가 존재하는 것이 일반적이며, 따라서 다중공선성의 문제는 정도의 문제인 것이다.
● 만약 독립변수들간에 상관관계가 전혀 없다면 이때는 다중회귀분석이 필요 없다. 왜냐하면 설명변수 각각에 대하여 단순회귀로 구한 계수와 다중회귀를 통해 구해진 계수가 일치하기 때문이다. 또한 다중공선성이 존재한다고 할지라도 계수추정치는 편의를 잦지 않고 결정계수도 영향을 받지 않는다.
● 다중공선성의 가장 큰 문제점은 계수추정치의 분산이 커져서 추정치의 신뢰성이 떨어지는 것이다. 이것은 일반적으로 횡단면자료에서보다는 시계열자료에서 많이 나타나는데, 그 이유는 각 시계열자료들이 시간에 대하여 강한 추세를 갖는다면 시계열자료들간에 상당한 정도의 상관관계가 존재하여 다중공선성을 유발하기 때문이다.
● 다중공선성 추정방법
1) 공차한계(tolerance)
⇒ 어떤 설명변수의 분산 중에서 다른 설명변수들에 의해 설명되지 않는 정도 ( 1 - )
는 해당 설명변수를 종속변수로, 다른 설명변수를 설명변수로 하여 추정한 회귀모형의 이며, 0에서 1사이의 값을 갖는데, 1에 가까울수록 다중공선성이 낮다.
2) 분산팽창요인(Variance inflation Factor : VIF)
⇒ 공차한계의 역수로서, 보통 1에서 10사이의 값을 가진다. 따라서 작을수록 다중공선성이 낮다.
3) 상관관계
⇒ 상관관계 계수가 0.8이상이면 다중공선성을 의심해야 한다.
● 다중공선성 판단의 정확한 기준은 없으며, 대개 공차한계가 0.19이하면(VIF가 5.3 이상) 다중공선성을 의심한다. 다중공선성의 해결은 지나치게 다른 변수들과 상관관계가 높은 설명변수를 제거하거나, 중심화 방법 등이 있다.
10. 영향점이나 이상점 존재 여부
● 영향점이나 이상점은 모두 다른 관측치에 비해 잔차가 큰 관측치라는 점에서 공통점이 있으나, 이상점은 비교할 대상이(설명변수 관계 속에서) 있어 그 값들에 비해 값이 매우 크거나 작아 회귀 계수 추정 값을 변화시킨다. 한편 영향점은 회귀 계수 추정값을 변화시키지만 비교 대상이 되는 관측치가 없으므로 이상점인지 판단할 수 없는 경우에 해당한다.
● 영향점가 존재하는 경우에는 ① 영향점를 제외하고 회귀모형을 추정하고, ② 영향점을 포함하여 회귀 모형을 추정한 두 가지 모두를 제시하는 것이 옳다. 이상치도 정보를 가진 관측치이다. 회귀모형 적합을 위해서는 제외하지만 왜 이 관측치가 다른 관측치에 비해 종속변수의 값이 크거나 작은지 파악하여 정보를 얻고 이를 연구 결과나 의사결정에 반영할 필요가 있다.
● 이상치를 파악하는 방법들
1) 그래픽을 이용한 방법
⇒ 잔차 산포도, 관찰치와 예측치간의 정상확률곡선을 통해서 파악
2) Mahalanobis의 거리
⇒ 단순회귀에서는 설명변수의 평균으로부터 각 사례의 거리를 표준화시킨 값이다. 이 값이 클수록 설명변수의 분포에서 멀리 떨어져 있으므로 예측에서의 이상치가 된다. 중다회귀에서는 설명변수의 평균이 아니라 변수들의 선형조합으로부터 각 사례의 거리를 계산한 값이다.
3) Cook의 거리
⇒ Cook의 거리는 종속변수의 예측에 있어 영향을 주는 사례를 의미한다. 특히 Cook의 거리는 영향이 있다고 판단되는 사례를 제거하였을 때의 잔차의 변화를 보여주므로 유용한 측정치가 된다. Cook의 값이 클수록 분석에 영향을 주는 이상점로 판단한다. 대체로 1보다 크면 이상점일 가능성이 높은데, Cook의 거리에는 통계적 유의도가 함께 제시된다. 그 값이 P<0.05> 이면 해당 사례가 이상점이다.
4) Leverage 값
⇒ 얼마나 특정 사례가 회귀의 예측에 영향을 주는가를 알 수 있는 또다른 지수로 값이 클수록 이상점로 판단한다.
11. 참고자료
1) 회귀분석 (1997) – 최병선, 세경사
2) 한남대학교 통계학과 권세혁교수 홈페이지 http://neverland.hannam.ac.kr/lecture
3) 미래정보통계연구소 http://www.papersea.com/