What's in my mind

What!

Monday, 22 March 2010

회귀분석 회귀진단

http://blessps.blogspot.com/2008/10/blog-post.html


<회귀분 석> 회귀진단

1. 회귀진단 (regression diagnostics)
⇒ 회귀분석에서 주어진 데이터의 특이성에 대한 진단을 말하며, 영향력 있는 데이터, 독립변수들 간의 공선성의 검색 등이 다루어진다. 즉, 회귀진단이란 주어진 데이터세트와 이 데이터세트를 사용해서 추정한 회귀모형 사이에 서로 일치되지 않는 점들을 찾아내는 과정이다.
회귀진단 추정된 회귀모형에 관한 진단(model criticism) - 모형진단
주 어진 데이터에 관한 진단(data criticism) – 데이터진단

2. 모형진단
(1) 오차항에 관한 가정의 검토
⇒ 선형회귀모형에서 오차항이 Gauss-Markov조건을 만족한다고 가정했다. 즉, 오차항이 독립성과 등분산성을 만족하고, 정규분포를 갖는다는 가정을 했다. 오차항이 이러한 조건들을 만족한다는 가정하에서 회귀분석이론을 전개하였으므로, 추정된 회귀모형이 이 조건을 만족하는지를 검토해야 한다. 오차항에 관한 이러한 가정들의 검토는 잔차분석을 통해서 이루어진다.
(2) 적절한 회귀모형의 선택
⇒ 변수들에 대해서 선택된 선형회귀모형이 가장 적절한가 아닌가를 검토해 볼 필요가 있다. 주어진 데이터세트를 그대로 선형회귀모형에 적합 시키기보다는 종속변수 y를 등으로 변수변환하거나 설명변수 를 변수변환하는 것이 바람직한 경우가 많다. 또한, 설명변수 가 종속변수 y에 전혀 영향을 주지 못하는 경우에는 선형회귀모형에서 설명변수를 제거시키는 것이 바람직하다.
(3) 설명변수들간의 다중공선성 검토
⇒ 설명변수들 사이에 다중공선성(multicollinearity)문제가 존재하면, 행렬 X’X의 역행렬을 구하기가 어렵고, 또한 계산의 정확도가 떨어진다. 더구나 회귀계수추정량의 분산이 커져서 회귀식의 신뢰성이 떨어진다. 따라서, 큰 다중공선성이 존재한다면, 설명변수들의 일부를 선형회귀모형에서 제거하거나 편의추정법들을 사용한다.

3. 데이터진단
(1) 이상점의 검출
⇒ 종속변수 y의 관찰값들 중에는 측정상 또는 실험상의 과오로 인해서 조사대상이 되는 종속변수의 모집단에 속하지 않는다고 의심이 될 정도로 정상범위 밖 아주 멀리 떨어진 관찰점을 이상점(outlier)이라고 한다. 이상점은 대개 절대값이 큰 잔차를 발생시키므로 식별하기가 용이하다.
(2) 지레점의 검출
⇒ 설명변수들의 관찰벡터가 관찰점들의 산점도의 중앙에서 멀리 떨어져 있으면, 이 관찰점을 큰지레점이라고 한다. 큰지레점은 회귀식에 큰 영향을 미치므로 자세히 검토해야 한다.
(3) 영향점의 검출
⇒ 추정된 선형회귀모형이 몇 개의 관찰점들에 크게 영향을 받는 경우가 있다. 이처럼 회귀모형의 추정결과에 영향을 크게 미치는 관찰점을 영향점이라고 한다. 영향점을 포함시켜 회귀분석을 한 결과와 이 관찰점을 제외하고 회귀분석을 한 결과는 큰 차이를 보인다.

4. 잔차들의 산점도
● 일반적으로 선형회귀모형에서는 오차항들이 서로 비상관이고 동일한 분산을 갖는다는 Gauss-Markov 조건을 만족한다고 가정한다. 때때로 오차항이 정규분포를 갖는다고 가정하기도 한다. 따라서, 회귀분석의 결과를 가지고 이와 같은 가정들이 타당한지를 검토해 볼 필요가 있다. 잔차를 오차항의 관찰값으로 해석할 수 있으므로, 잔차들을 분석해 봄으로써 오차항에 대한 가정들의 성립 여부를 조사할 수 있을 것이다.
● 잔차분석의 첫 단계는 잔차들의 산점도를 그려서 추정된 선형회귀모형이 주어진 데이터세트에 적합한가 또는 적합하지 않은가를 직관적으로 판단해 보는 것이다. (i = 1, 2, 즉, 잔차는 관찰값에서 추정된 선형회귀모형으로 설명할 수 없는 부분을 나타내며, 또한 오차항의 관찰값으로 해석할 수 있다. 따라서, 오차항에 대한 가정들이 성립하는지 여부는 잔차를 검토해 봄으로써 알 수 있다. 만일 산점도들이 어떠한 특별한 형태를 보이면, 추정된 선형회귀모형이 주어진 데이터세트에 적합한 것이 아니라고 할 수 있다. 잔차들의 산점도들을 그려 봄으로써, 선형회귀모형을 최소제곱추정하기 위해서 부가한 가정들이 옳았는가를 검토할 수 있다.
< 잔차들의 산점도들의 형태 >

1) Gauss-Markov 조건이 만족되었다고 판단한다. 즉, 추정된 선형회귀모형이 주어진 데이터세트에 적절하다고 할 수 있다.
2) 오차항 분산이 일정하지 않다. 이 경우에는 종속변수를 변수변환하거나 가중최소제곱추정법을 사용한다.
3) 선형회귀모형의 추정에서 계산착오가 있는 경우이다. 이러한 경우에는 상수항을 추가하거나, 필요 없는 설명변수를 선형회귀모형에서 제거하거나 또는 적합한 을 새로운 설명변수로 추가한 선형회귀모형을 사용한다.
4) 선형회귀모형에서 필요한 설명변수가 사용되지 않은 경우이다. 특히 설명변수의 비선형효과가 회귀모형에 반영되지 않은 경우이다. 이러한 경우에는 설명변수의 제곱항 등을 새로운 설명변수로 추가하거나 종속변수를 변환시킬 필요가 있다.

5. 선형성 (Linearity)
(1) 선형성 진단방법
1) 설명변수와 종속변수의 산점도를 이용하여 이차함수형태를 확인한다.
2) 잔차와 예측치의 산점도를 이용하여 이차함수형태를 확인한다.
(2) 해결방법
⇒ 산점도를 보면 종속변수와 설명변수의 직선(선형) 관계를 진단할 수 있다. 잔차와 예측치의 산점도가 일정한 함수형태를 가지면(이차함수) 선형성이 무너지게 되는데 이를 해결하려면 설명변수의 이차항을 설명변수로 추가한다. 이차항을 추가할 때는 설명변수를 표준화 한 후 넣으면 다중공선성 문제가 완화된다.

6. 오차항의 독립성
● 선형회귀모형에서 종속변수가 시간 또는 위치에 영향을 받는 시계열데이터인 경우에는 이웃하는 관찰값들 사이에 상관관계가 있을 수 있다. 만일 오차항들이 서로 독립이라면, 잔차들은 난수성(randomness)을 보일 것이다. 반면에, 잔차들이 난수성을 보이지 않으면, 오차항들 사이에 상관관계가 있다고 할 수 있다.
● 오차항의 독립성을 검토해 보는 가장 간단한 방법은 잔차대 시점의 산점도와 시차를 갖는 잔차들의 산점도를 그려서 눈으로 확인해 보는 것이다. 산점도 이외에도 Durbin-Watson통계량, 런검정, 스펙트럴검정 등이 존재한다.
● 시계열데이터에서는 이웃하는 관찰값들 사이에 상관관계가 존재하는 것이 일반적이며, 이러한 데이터세트를 자기상관 되었다고 한다. 오차항의 자기상관은 Durbin-Watson의 d통계치로 확인 할 수 있다. D통계치의 정확한 임계치는 알려져 있지 않으나, 만일 d통계치가 유의미한 것으로 나타나면 오차가 자기상관을 갖는 것으로 판단하여 잔차의 독립성을 가정할 수 없게 된다. 보통 d값은 공식에 따라 0과 4의 범위를 갖는데, 완전 정적상관일 때 대략 0의 값을 갖고 완전 부적 상관일 때 4의 값을 갖는다. 따라서 d값이 2에 근접할 때 잔차가 독립적인 것으로 해석한다.
● 오차항들이 서로 독립적이라는 가정이 만족되지 않는 경우에는 일반화최소제곱부정법을 사용해서 선형회귀모형을 추정한다.

7. 오차항의 등분산성
● 선형회귀모형에서 최소제곱추정법이나 최우추정법을 적용할 때 오차항들의 분산이 일정하다고 가정한다. 만일 오차항분산이 일정하지 못하면, 오차항이 이분산성을 갖는다고 한다. 앞에 설명 했듯이 잔차분석을 하기 위해서는 잔차들의 산점도를 살펴보는 것이 필수적이다.

< 적합값 대 잔차제곱의 산점도 >

1) 이분산성이 존재하지 않는다.
2) 적합값이 커지면 분산도 커지는 전형적인 이분산성이 존재하는 경우이다
3) 분산이 적합값의 멱함수 형태를 갖는 경우이다.
4) 분산이 적합값의 지수함수 형태를 갖는 경우이다.

● 오차항의 등분산성을 진단하는 방법에는 산점도 이외에도 White검정법, Glejser검정법, 상관계수들을 사용하는 검정법, Goldfeld-Quandt검정법 등이 있다.
● 만일 오차항이 이분산성을 가지면, 가중최소제곱추정법(weighted least squares method)을 사용하거나 종속변수를 변수변환시켜서 최소제곱추정법을 적용한다. 이러한 목적으로 변수를 변환시키는 것을 분산안정화변환이라고 한다.

8. 오차항의 정규성
● 데이터세트의 정규성을 조사하기 위해서는 잔차들의 히스토그램, 줄기잎그림과 상자그림을 그려 본다. 그러나, 이들은 통계분석자의 경험을 바탕으로 결론을 내야 하는 객관성이 결여된 방법들이다. 오차항의 정규성을 검정하는데 유의할 점은 관찰점들의 개수가 적은 경우에는 잔차분석만으로 정규성검정을 하기 어렵다는 것이다.
● 데이터세트의 정규성을 조사하는 가장 일반적인 방법은 데이터세트를 정규확률종이에 그려 보는 것이다. 정규확률종이란 누적정규분포가 직선으로 표현되도록 만들어진 모눈종이를 말한다. 정규확률종이에 그림을 그리는 방법은 X축에 관찰값들을 크기순서로 나열하고 Y축에 각 관찰점들에 해당하는 누적확률을 표시한다. 이 누적확률곡선이 직선에 가까우면 데이터세트가 정규분포를 갖는다고 할 수 있으나, 그렇지 않은 경우는 정규분포를 갖는다고 말하기 어렵다. 오늘날에는 통계패키지의 발달로 인해서 정규확률종이를 사용하지 않고 컴퓨터가 그려주는 정규확률산점도를 사용한다.

● 그 외에도 정규성을 진단하는 방법에는 Shapiro-Wilk검정법, Anderson-Darling검정법, D’Agostino검정법, Kolmogorov-Smirnov검정 등이 존재한다.
● 오차항이 정규성을 갖지 않는 경우에는 종속변수를 변수변환하거나 선형회귀모형에 설명변수들을 추가 또는 삭제해서 오차항이 정규성을 갖도록 한다.

9. 다중공선성(multicollinearity)
● 설명변수들간에 상관관계가 존재할 때 다중공선성이 있다고 한다. 다중회귀모형의 모수를 추정하는 경우에 설명변수들간에 완전한 선형관계가 존재해서는 안 된다. 그러나 현실적으로 특히 시계열자료를 이용한 회귀분석에서는 어느 정도의 상관관계가 존재한다. 즉 설명변수들간에 어느 정도의 상관관계가 존재하는 것이 일반적이며, 따라서 다중공선성의 문제는 정도의 문제인 것이다.
● 만약 독립변수들간에 상관관계가 전혀 없다면 이때는 다중회귀분석이 필요 없다. 왜냐하면 설명변수 각각에 대하여 단순회귀로 구한 계수와 다중회귀를 통해 구해진 계수가 일치하기 때문이다. 또한 다중공선성이 존재한다고 할지라도 계수추정치는 편의를 잦지 않고 결정계수도 영향을 받지 않는다.
● 다중공선성의 가장 큰 문제점은 계수추정치의 분산이 커져서 추정치의 신뢰성이 떨어지는 것이다. 이것은 일반적으로 횡단면자료에서보다는 시계열자료에서 많이 나타나는데, 그 이유는 각 시계열자료들이 시간에 대하여 강한 추세를 갖는다면 시계열자료들간에 상당한 정도의 상관관계가 존재하여 다중공선성을 유발하기 때문이다.

● 다중공선성 추정방법
1) 공차한계(tolerance)
⇒ 어떤 설명변수의 분산 중에서 다른 설명변수들에 의해 설명되지 않는 정도 ( 1 - )
는 해당 설명변수를 종속변수로, 다른 설명변수를 설명변수로 하여 추정한 회귀모형의 이며, 0에서 1사이의 값을 갖는데, 1에 가까울수록 다중공선성이 낮다.
2) 분산팽창요인(Variance inflation Factor : VIF)
⇒ 공차한계의 역수로서, 보통 1에서 10사이의 값을 가진다. 따라서 작을수록 다중공선성이 낮다.
3) 상관관계
⇒ 상관관계 계수가 0.8이상이면 다중공선성을 의심해야 한다.
● 다중공선성 판단의 정확한 기준은 없으며, 대개 공차한계가 0.19이하면(VIF가 5.3 이상) 다중공선성을 의심한다. 다중공선성의 해결은 지나치게 다른 변수들과 상관관계가 높은 설명변수를 제거하거나, 중심화 방법 등이 있다.

10. 영향점이나 이상점 존재 여부
● 영향점이나 이상점은 모두 다른 관측치에 비해 잔차가 큰 관측치라는 점에서 공통점이 있으나, 이상점은 비교할 대상이(설명변수 관계 속에서) 있어 그 값들에 비해 값이 매우 크거나 작아 회귀 계수 추정 값을 변화시킨다. 한편 영향점은 회귀 계수 추정값을 변화시키지만 비교 대상이 되는 관측치가 없으므로 이상점인지 판단할 수 없는 경우에 해당한다.
● 영향점가 존재하는 경우에는 ① 영향점를 제외하고 회귀모형을 추정하고, ② 영향점을 포함하여 회귀 모형을 추정한 두 가지 모두를 제시하는 것이 옳다. 이상치도 정보를 가진 관측치이다. 회귀모형 적합을 위해서는 제외하지만 왜 이 관측치가 다른 관측치에 비해 종속변수의 값이 크거나 작은지 파악하여 정보를 얻고 이를 연구 결과나 의사결정에 반영할 필요가 있다.
● 이상치를 파악하는 방법들
1) 그래픽을 이용한 방법
⇒ 잔차 산포도, 관찰치와 예측치간의 정상확률곡선을 통해서 파악
2) Mahalanobis의 거리
⇒ 단순회귀에서는 설명변수의 평균으로부터 각 사례의 거리를 표준화시킨 값이다. 이 값이 클수록 설명변수의 분포에서 멀리 떨어져 있으므로 예측에서의 이상치가 된다. 중다회귀에서는 설명변수의 평균이 아니라 변수들의 선형조합으로부터 각 사례의 거리를 계산한 값이다.
3) Cook의 거리
⇒ Cook의 거리는 종속변수의 예측에 있어 영향을 주는 사례를 의미한다. 특히 Cook의 거리는 영향이 있다고 판단되는 사례를 제거하였을 때의 잔차의 변화를 보여주므로 유용한 측정치가 된다. Cook의 값이 클수록 분석에 영향을 주는 이상점로 판단한다. 대체로 1보다 크면 이상점일 가능성이 높은데, Cook의 거리에는 통계적 유의도가 함께 제시된다. 그 값이 P<0.05> 이면 해당 사례가 이상점이다.
4) Leverage 값
⇒ 얼마나 특정 사례가 회귀의 예측에 영향을 주는가를 알 수 있는 또다른 지수로 값이 클수록 이상점로 판단한다.

11. 참고자료
1) 회귀분석 (1997) – 최병선, 세경사
2) 한남대학교 통계학과 권세혁교수 홈페이지
http://neverland.hannam.ac.kr/lecture
3) 미래정보통계연구소 http://www.papersea.com/

잔차분석

http://wolfpack.hnu.ac.kr/lecture/Regression/ch3_residual.pdf

회귀분석

http://www.aistudy.co.kr/math/regression_analysis.htm


Regression Analysis

.......... 변수들 간의 함수적인 관련성을 규명하기 위하여 수학적 모형 (통계모형) 을 가정하고, 관측된 자료로부터 이 모형을 추정하는 통계분석방법으로 주로 예측에 사용 된다 .............

'회귀분석이란 주어진 데이터를 가장 잘 나타낼 수 있는 수식을 찾아내는 방법' 이라고 정의된다 ....... 예를들어, 어떤 실험에 대한 데이터를 수집해 보니 다음과 같은 테이블이 얻어졌다고 가정해보자.

X

-1

0

3

1

-1

1

2

4

2

5

Y

-2.67

1.77

1.59

3.28

-2.43

3.2

3.18

-2.91

3.75

-8.49

위의 도표를 보면 x 의 값이 -1, 0, 3, 1, -1, 1, 2, 4, 2,5 일때는 그에 해당하는 Y 값을 알 수가 있다. 그런데, 만약 X 가 3.5 일때의 값을 알고자 한다고 가정해보자. 어떻게 할 것인가? ........... 위의 데이터를 그래프에 점으로 표현하고 그에 가장 유사할 것 것은 수식의 일반식을 구해본다. .... 일단 이와 같이 데이터를 표현하고자 하는 수식이 결정되고나면, 그 수식에 대한 일반식을 적어본다. 1차식이 될 수도 있고, 2차, 3차 식도 될 수 있지만 그래프에 그려진 점에서 2차식을 선택한다면, 2차식 에 대한 일반형은 다음과 같이 나타낼 수 있다. Y = aX2 + bx + c ............. 만약에 우리에게 주어진 데이터를 사용해서, 위의 일반식의 a,b,c 값만 알아내면, 그 데이터를 나타내는 식이 얻어지는 것이다. 이것이 바로 회귀분석이라는 것이다. ...........

term :

최소자승 (Least Square) 예측 (Prediciton) 불확실성 (Uncertainty) 통계 (Statistics) 시계열분석 (Time Series Analysis) 회귀분석 (Regression Analysis) 추론 (Reasoning) 칼만필터 (Kalman Filter) 날씨 (Meteorology) 경제 (Economy)

site :

Wikipedia : Regression analysis

회귀분석 Simulaton : 자바 애플릿

paper :

단순 회귀분석 회귀분석 추론 : 이 해용. 이 필용

신경망을 이용한 비모수 회귀분석에 관한 소고 (On Nonparametric Regression Method Using Neural Networks) : 황창하, 유지영, 대구효성가톨릭대 기초과학연구논집, 1997

유전자 알고리즘을 이용한 비모수 회귀분석 (Nonparametric Regression with Genetic Algorithm) : 김병도, 노상규, 경영정보학연구, 2001

퍼지 신경망에 의한 퍼지 회귀분석 (Fuzzy Regression Analysis Using Fuzzy Neural Networks) : 권기택, 대한산업공학회, 1997

퍼지 선형회귀 모형과 응용 (Fuzzy Linear Regression Model and Its Application) : 홍덕헌, 이성호, 한국통계학회 응용통계연구, 1997

퍼지확률회귀모형 (Fuzzy Random Regression Model) : 이호성, 오창혁, 한국데이터정보과학회, 1994

회귀분석을 위한 로버스트 신경망 : 김상민, 박희주, 황창하, 한 국통계학회, 1997

AR (1) 모형에서 자기회귀계수의 다중검정을 위한 베이지안 방법 (Bayesian Method for the Multiple Test of an Autoregressive Parameter in Stationary AR (1) Model) : 김경숙, 손영숙, 한 국통계학회 응용통계연구, 2003

회귀분석

http://www.megapass.co.kr/~mk2004/staticmethod/regression.htm


회귀분석이란 두 연속형(서열, 등간, 비율척도 등)변수의 상관관계를 살펴보는 차원이 아니라, 관찰된 연속형 변수에 대해 독립변수와 종속변수 사이의 선형식을 구하고 그 식을 이용하여 독립변수가 주어졌을 때 종속변수를 예측하는 분석방법이다. 1개의 종속변수와 1개의 독립변수 사이의 관계를 분석할 경우를 단순회귀분석(Simple Regression Analysis), 1개의 종속변수와 여러 개의 독립변수 사이의 관계를 규명하고자 할 경우를 다중회귀분석(Multiple Regression Analysis)이라고 한다.

회귀분석(regression analysis)은 변수들 중 하나를 종속변수로 나머지를 독립변수로 하여 이들 변수들이 서로 인과관계를 가질 때 독립변수가 변화함에 따라 종속변수가 어떻게 변화하는가를 규명하는 통계기법이다. 이와 같이 회귀분석이 상관분석과 다른 점은 독립변수들의 종속변수에 대한 상대적인 중요도를 통한 예측이 가능하다는 점이다. 그리고, 회귀분석의 방향이 일방향(독립변수 → 종속변수)라면, 상관분석은 쌍방향(변수↔변수)라는 것이 가장 큰 차이점이라고 할 수가 있다.

1. Homoscedasticity: 오차항은 모든 X값에 대하여 동일한 분산을 갖는다.

2. Independence of Error: 오차항간에는 상관관계가 없어야 한다.

3. Normality: 오차항의 평균은 0이며 분산은 인 정규분포를 이루어야 한다.

4. Nomulticolinearity: 독립변수 상호간에는 상관관계가 없어야 한다.

1. 상관분석이 선형관계의 밀접한 정도만을 측정하는데 비해 회귀분석은 비선형관계 분석은 물론 독립변수가 종

속변수에 미치는 영향에 대한 확인 및 검정을 할 수 있다.

2. 상관분석은 두 변수의 임의성을 전제로 하고 회귀분석은 독립변수의 임의성과 고정성을 전제로 할 수 있다.

3. 회귀분석은 독립변수에 대한 정보를 이용하여 종속변수가 갖게 될 값을 예측할 수 있지만, 상관분석에서는 이

것이 불가능하다.

아래의 간단한 사항을 가정하여 단순회귀분석을 수행하는 예를 보도록 하자.

◇◇기업에 있어 신뢰가 고객만족에 유의적인 영향을 미치는지를 알아보고자 한다. 이를 위하여 종속변수로는 기업신뢰를 그리고 독립변수로는 고객 만족도를 선정하여 단순회귀분석을 실시하였다.

: 고객만족이 기업신뢰에 유의적인 영향을 미친다.

※ 위의 사항에 있어 사례수를 67명으로 가정하여 단순회귀분석을 실시한 결과이다.

-->Variables Entered/Removed(b)(진입/제거된 변수)

Model(모형)

Variables Entered(진입된 변수)

Variables Removed

(제거된 변수)

Method

(방법)

1

고객만족(a)

.

Enter

(입력)

a All requested variables entered.

(a) 요청된 모든 변수가 입력되었습니다.

b Dependent Variable: 기업신뢰

(b) 종속변수 : 기업신뢰

종속변수는 '기업신뢰'이며 독립변수는 '고객만족'으로 회귀식에 진입된 변수가 고객만족임을 알 수 있다. 그러나 단순 회귀분석에서의 이같은 입력방법(enter method)은 별 의미가 없다.

Model Summary(b) 모형요약

Model

(모형)

R

R Square

(R 제곱)

Adjusted R Square

(수정된 R 제곱)

Std. Error of the Estimate

(수정된 R제곱)

1

.566(a)

.320

.310

.6739

a Predictors: (Constant), 고객만족 (a) 예측값 : (상수), 고객만족

b Dependent Variable: 기업신뢰 (b)종속변수 : 기업신뢰

위의 분석결과로 표본회귀선에 대한 적합도 및 유의도 검정을 수행할 수 있다. R제곱은 .566으로서 통계분석에 이용된 케이스의 32%가 표본회귀선에 적합하다고 말할 수 있으며, 변수 고객만족과 기업신뢰도간 상관계수의 자승과 동일하다. 만일 모든 측정치들이 표본회귀선상에 머문다면 R제곱은 1이 되고, 종속변수와 독립변수간의 어떠한 선형관계도 존재하지 않는다면 R제곱은 0이 된다. R값은 .32이며 이는 두 변수간의 상관계수이다. R제곱은 모델이 모집단에 얼마나 잘 부합될 수 있는가에 대한 추정의 근거가 된다. 수정된 R제곱(Adjusted R Square)은 .32로서, 즉 .32 = 1-[(1 - .32)*(67-1)/(67-1-1)]모집단에 이 모델을 가장 잘 부합시키기 위해서 R제곱을 수정한 것이다.

ANOVA(b)분산분석

Model(모형)

Sum of Squares

(제곱합)

df

(자유도)

Mean Square

(평균제곱)

F

Sig.

유의확률

1

Regression

(선형회귀분석)

13.902

1

13.902

30.616

.000(a)

Residual(잔차)

29.516

65

.454

Total(합계)

43.418

66

a Predictors: (Constant), 고객만족(a) 예측값 : (상수), 고객만족

b Dependent Variable: 기업신뢰(b) 종속변수 : 기업신뢰

R제곱이 0이라는 가설은 모형회귀선의 기울기가 0이라는 가설과 동일하다. 이를 위한 검정이 분산분석(ANOVA)으로 수행된다. 만일 회귀가정이 충족된다면 평균분산오차에 대한 평균분산회귀의 비율은 k(독립변수 개수)와 (n-k-1)의 자유도를 가진 F분포에 따른다. F값의 제곱근은 기울기에 대한 T통계량, F통계량 모두 유의도 검정에 사용될 수 있다 또한 분산분석(ANOVA)을 통해서 표본회귀식으로 설명된 부분과 설명되지 않는 부분을 알아볼 수도 있다. 결론적으로 회귀식의 유의성은 F통계량에 의해 결정된다. 위 결과에서는 F값이 30.616로 자유도가 (1, 65)이며 유의확률값이 .000이므로 '기울기가 0이다'라는 귀무가설은 기각된을 알 수 있다. 그리고 이를 T 통계량으로 환산하면 자유도가 65이므로 30.616이 된다.

Coefficients(a)계수

Unstandardized Coefficients

(비표준화 계수)

Standardized Coefficients

(표준화계수)

t

Sig.

유의확률

Model(모형)

B

Std. Error

표준오차

Beta

1

(Constant)

(상수)

2.960

.522

5.666

.000

고객만족

.523

.094

.566

5.533

.000

a Dependent Variable: 기업신뢰 (a) 종속변수 : 기업신뢰

위 결과는 모수 추정에 대한 결과로 기울기에 대한 추정치는 .523, 기울기의 표준오차는 .034임을 알 수 있다. 따라서 다음과 같은 식이 성립된다. t = ( .155-0) / .006 = .566 T분포를 고려할 때 유의확률값이 .000이므로 유의수준 .05에서 볼 때 통계적으로 유의성이 있는 것으로 볼 수 있다. 즉 고객만족이 기업신뢰에 의적인 영향을 미친다라는 연구가설이 채택됨, 두 변수는 선형의 관계에 있다고 할 수 있다. 한편 표본회귀식에 의해 설명된 부분 (SSR)은 13.902이며 설명되지 않는 부분(SSE) 29.516이다. 따라서 R제곱은 13.902 / (13.902 + 29.516 으로도 계산할 수 있다. 표본회귀방정식으로 나타내면 기업신뢰(Y) = 2.960 + .523*(만족수)와 같이 설정된다.

Residuals Statistics(a)잔차 통계량

Minimum

(최소값)

Maximum

(최대값)

Mean

(평균)

Std. Deviation

(표준편차)

N

Predicted Value

(예측값)

4.4232

6.4095

5.8134

.4590

67

Residual

(잔차)

-1.6550

1.8041

6.231E-16

.6687

67

Std. Predicted Value

(표준화 예측값)

-3.029

1.299

.000

1.000

67

Std. Residual

(표준화 잔차)

-2.456

2.677

.000

.992

67

a Dependent Variable: 기업신뢰

(a) 종속변수 : 기업신뢰

위의 분석결과는 잔차통계량에 관한 내용을 보여주고 있다. 이는 종속변수인 기업신뢰의 예측치를 기준으로 하고 있는 것이다. 예측치를 기준으로 할 때의 최소값, 최대값, 평균, 표준편차 및 사례수(n)를 제시하고 있다. 예를 들명, 예측값에 대한 최소값은 4.4232, 최대값은 6.4095, 평균은 5.8134, 표준편차는 .4590임을 알 수 있다.

회귀분석에서 가장 중요한 문제 가운데 하나는 다중공선성의 문제로서 다중공선성의 문제를 해결하기 위해서는 유의하지 않은 변수를 제거한 다음에 다시 회귀분석을 실시하는 것이 바람직하다.

선형회귀분석이 종속변수와 독립변수 사이의 선형관계를 전제로 하는데 비해 로지스틱 회귀분석은 비선형의 로지스틱 형태를 취하며 단지 2개의 값을 가지는 종속변수(성별, 자동차의 유무 등과 같은 명목척도)와 독립변수 사이의 인과관계를 밝히는 통계기법이다. 즉 두 집단 이상의 표본에 대해 각 표본이 속하는 집단을 구분하거나, 집단을 구분하는데 있어 어느 변수가 중요한지를 찾아내는데 사용한다.

일반적인 분석기법들은 종속변수가 단지 이변량(예 : 사건이 일어날 때와 일어나지 않을 때)으로 나누어진 값만을 가질 때는 그 현상을 예측하는데 적용하기가 어렵다.

로지스틱 회귀분석(logistic regression)이란 단지 이변량의 값만을 가지는 종속변수(예 : 성별이나 주택 유무 등과 같은 명목척도)와 독립변수들 간의 관련성을 추정하는 하나의 통계기법이다.

공분산분석(ANCOVA)

http://blog.naver.com/eclipse0115?Redirect=Log&logNo=50032390662

분산분석은 독립변수가 다른 집단간에 종속변수값의 차이가 있는지를 조사하는 방법임에 반해 공분산분석은 독립변수가 종속변수에 미치는 영향을 알아보기 위해 직접통제하기 어려운 외생변수(잠재변수)를 제거한 후 실시하는 분석입니다. 잠재변수가 종속변수와 상관관계가 높을수록 공분산분석을 실시해야 순수한 처치효과를 조사할 수 있습니다. 단회귀 모델과 중회귀모델도 이런 의미에서는 공분산구조 모델의 일종이라고 할 수 있습니다.
공분산구조 모델의 경우 다변량분석의 여러 가지 기법을 통합한 모델이라고 생각할 수 있으므로 공분산구조 모델을 이용하여 다변량 데이터에 관한 여러 가지 분석이 가능합니다. 공분산구조 모델에서는 측정방정식과 구조방정식이라고 하는 두 종류의 방정식을 사용하여 인과 모델을 표현할 수 있습니다. 다음 표에서는 공분산분석의 하위 모델에 관한 것입니다. 이를 통해 공분산분석이 광범위하다는 것을 알 수 있을 것입니다.
 

측정방정식 이용
구조방정식 이용
측정방정식과 구조방정식 이용
요인분석
분산성분의 추정 모델
주성분분석
다방법 다특성 행렬의 분석
고전적 테스트 모델
일반화 가능성 계수의 추정 모델
와이너 심플렉스 모델
경로분석
회귀분석
동시방정식 모델
다변량회귀분석
분산분석
다변량 분산분석
판별분석
수량화이론 ⅠⅡ
 
다중지표 다중원인 모델
PLS 모델
고차 요인분석
심플렉스 구조 모델
중판별분석
정준상관분석
수량화이론 Ⅲ
패널 데이터 분석

------------------------------------------------------------------------------------

[실 제연구가설 예시]

한 학교에서 학생들의 친사회적인 성향은 성별에 따라 다를 것이라 생각하고 성별을 독립변수로 친사회적인 성향을 종속변수로 설정하여 조사하고자 한다. 학생들의 대인관계능력을 공변량으로 설정하여 순수하게 성별에 따른 친사회적인 성향을 알아보기 위해 대인관계능력에 대한 변수는 통제하기로 하였다.

1) 가설설정
 
<연구문제> 대인관계가 일정한(통제된) 경우 성별에 따른 친사회적인 태도가 다르게 나타난다.
(영가설) : 대인관계가 일정한 경우 성별에 따른 친사회적인 태도는 다르지 않다.
(대립가설) : 대인관계가 일정한 경우 성별에 따른 친사회적인 태도는 다르다.
 
2) 유의수준설정
3) 실행방법

 
공분산분석을 하기 전에 성별에 따라 친사회적인 태도가 나타나는지 알아보기 위해 우선, 일원배치 분산분석을 실시합니다. [예제 10-1]를 불러 다음과 같은 절차를 따라합니다.
 

분석(A)→평균비교(M)→일원배치분산분석(O)

그림 8.1] 대화상자의 옵션(O)에서 기술통계와 분산의 동질성을 설정해 준 후 [확인]을 누르면 다음과 같은 결과가 나타납니다.
 
-->기술통계
친사회적
 


N
평균
표준편차
표준오차
평균에 대한 95% 신뢰구간
최소값
최대값
하한값
상한값
남자
24
12.9583
1.7810
.3636
12.2063
13.7104
8.00
15.00
여자
24
11.4167
1.6918
.3453
10.7023
12.1311
7.00
14.00
합계
48
12.1875
1.8868
.2723
11.6396
12.7354
7.00
15.00

기술통계 표에서는 각 성별에 따른 친사회적행동의 평균과 표준편차, 표준오차, 신뢰구간, 최소값, 최대값이 제시되어 있습니다.

 
-->분산의 동질성에 대한 검정
친사회적
 

Levene 통계량
자유도1
자유도2
유의확률
.000
1
46
.983

 
분산의 동질성에 대한 검정 표에서는 성별에 대한 집단들의 분산의 동질성 가정에 대한 검증 결과가 제시됩니다. 유의확률이 .983으로 영가설을 기각하지 못하므로 분산의 동질성에 대한 가정의 문제는 없다고 결론지을 수 있습니다.
-->분산분석
친사회적
 


제곱합
자유도
평균제곱
F
유의확률
집단-간
28.521
1
28.521
9.453
.004
집단-내
138.792
46
3.017


합계
167.313
47



 
분산분석 표에서는 성별에 따른 친사회적 행동에는 차이가 있는지를 제시해 줍니다. 유의확률이 .004이므로 영가설(성별에 따라 친사회적인 행동에는 차이가 없다)을 기각하므로 성별에 따라 친사회적인 성향에 차이가 있다고 결론지을 수 있습니다. 이에 대한 결과를 토대로 공분산분석을 실시해 봅시다.
 
[예제 10-1]을 다시 부른 후 공분산분석을 시작하기 위해 다음과 같은 절차를 따라합니다.
 

분석(A)→일반선형모형(G)→일변량(U)

이 절차를 따르면 [그림 8.2]와 같은 대화상자가 나타납니다.
 
①, ② 변수목록 칸에 있는 변수 중 종속변수를 종속변수(D)칸으로 독립변수를 모수요인(F)칸으로 통제변수를 공변량(C)칸으로 옮깁니다.
 
③ 모형(M)
모형에서는 완전요인모형(A)과 제곱합(Q)에서는 제 Ⅲ 유형을 설정한 후 [계속]을 누릅니다. 모형에 대한 자세한 내용은 7장의 분산분석의 내용을 참고하시기 바랍니다.
 
④ 옵션(O)
옵션에서는 기술통계량과 동질성검정을 설정한 후 [계속]을 누릅니다.
 
이 과정을 마친 후 [확인]을 누르면 다음과 같은 결과 창이 나타납니다.
 
-->개체-간 요인
 


변수값 설명
N
성별
1.00
남자
24
2.00
여자
24

 
개체-간 요인 표에서는 집단에 따른 케이스(사례수)가 나타나 있습니다.
 
-->기술통계량
종속변수: 친사회적
 

성별
평균
표준편차
N
남자
12.9583
1.7810
24
여자
11.4167
1.6918
24
합계
12.1875
1.8868
48

 
기술통계량 표에서는 성별에 따른 평균과 표준판차, 사례수가 나타나 있습니다.
-->오차 분산의 동일성에 대한 Levene의 검정(a)
종속변수: 친사회적
 

F
자유도1
자유도2
유의확률
1.723
1
46
.196
여러 집단에서 종속변수의 오차 분산이 동일한 영가설을 검정합니다.
a 계획: Intercept+대인관계+성별

 
오차분산의 동일성에 대한 Leveve의 검정 표에서는 성별 집단들의 분산의 동질성 가정에 대한 검증결과가 나타나 있습니다. 유의확률이 0.196으로 영가설을 기각하지 못하므로 집단의 등분산 가정에는 문제가 없다고 결론지을 수 있습니다.
 
-->개체-간 효과 검정
종속변수: 친사회적
 

소스
제 III 유형 제곱합
자유도
평균제곱
F
유의확률
수정 모형
81.736(a)
2
40.868
21.490
.000
Intercept
47.336
1
47.336
24.891
.000
대인관계
53.215
1
53.215
27.983
.000
성별
7.415
1
7.415
3.899
.054
오차
85.577
45
1.902


합계
7297.000
48



수정 합계
167.312
47



a R 제곱 = .489 (수정된 R 제곱 = .466)

개체-간 효과검정 표는 대인관계가 공변량으로 반영된 상태에서의 공분산분석결과입니다. 앞에서의 일원분산분석의 결과와 비교해 보면, 일원분산분석의 경우 성별에 따라 친사회적인 성향이 다르다고 나타난 반면, 공분산분석 결과에서는 (대인관계가 통제된 경우)성별에 따라 친사회적인 성향에 차이가 있다고 결론지을 수 없습니다. 이와 같은 결과는 친사회적인 성향과 상관관계가 높은 대인관계라는 변수가 모형에 포함되었기 때문입니다. 따라서 일원분산분석에서의 결과는 순수하게 성별에 따른 친사회적인 성향의 차이를 본 것이 아니라 응답자의 대인관계에 따른 친사회적인 성향의 결과라고 해석할 수 있습니다.
{ANCOVA}
공 분산분석은 연구외 변인을 통제하거나 검증력 제고를 위해 활용되는 기법이다. 공분산분석은 분산분석의 형식을 취하되, 하나 혹은 그 이상의 변인 상에서 집단을 동등화 할 때 실험적 방법이 아닌 통계적 방법을 적용하게 된다. 원래 공분산분석은 통제대상 변인 상에서 대응집단을 구성하는 것과 같은 방법이다. 즉 공분산분석은 특정 변인의 초기 차이에 비추어 사후검사를 조정한 다음, 이 조정된 범수를 비교한다. 통제대상 변인에 따른 집단간 동등화를 기한 다음, 비교가 이루어진다는 것이다.

종속변인과 상관이 있는 어떤 변인이라도 공분산을 사용하여 통제할 수 있다. 공분산분석에서 통제되는 공변인으로 사전검사 점수, 지능지수 점수, 적성 등이 있다. 이 기법이 공분산을 활용하기 때문에 여타의 연구외 변인으로 돌릴 수 있는 사후검사 점수의 변산을 줄일 수 있고, 이상적으로는 모든 사후검사의 분산을 처치조건에서 기인한 것으로 돌리 수 있게 된다.

공분산분석은 인과비교연구나 실험연구에서 공히 사용될 수 있는 통제기법이다. 여기에서 실험연구에서 사용하는 무선화가 모든 변인 상에서 집단 동등화를 보증하지 못한다는 점을 상기할 필요가 있다. 물론 공분산분석의 활용 시에도 참여자가 처치집단에 무선적으로 할당되어야 한다는 점이 가정된다. 따라서 진실험설계에 공분산분석을 활용하는 것이 최상의 방책이다.

기존집단의 비교시 피험자가 처치집단에 무선적으로 할당되었다면, 공분산분석은 사용가능한 기법이다. 그러나 결과해석 시에는 주의가 요망된다. 만일 인과 비교연구의 경우처럼 기존집단을 대상으로 무조작 독립변인이 있을 때, 이 기법을 적용하였다면, 결과가 오도될 가능성이 있기 때문이다. 공분산분석과 관련하여 또 다른 가정이 있지만, 일단 참여자가 처치집단에 무선할당되었다면, 위의 가정위반은 심각하지 않은 것으로 받아들일 수 있다.

공분산분석의 두 번째 이점은 집단내(오차)분산을 줄임으로써 통계적 검증력을 높인다는 것이다. 여기에서 검증력(POWER)이란 잘못된 영가설을 기각할 수 있는, 즉 옳은 의사결정을 통해 영가설 기각하는 통계적 역량을 지칭한다. 물론 표본 크기를 늘리면, 검증력도 올라가겠지만, 예산상의 이유나 실제적 이유 때문에 한정된 규모의 표본을 활용할 때가 많다. 공분산분석은 여러 집단을 통해 "동등화"함으로써 무선표집오차를 줄일 수 있기 때문에 유의도 검증력이 커진다. 공분산분석의 검증력 제고는 집단 구성시 무선화의 정도와 직결되어 있다. 그러나 집단이 무선적으로 선정할당되지 않을 때에도, 공분산분석 결과는 최소한 타당한 것으로 받아들여질 수 있다