What's in my mind

What!

Monday, 22 March 2010

회귀분석

http://www.megapass.co.kr/~mk2004/staticmethod/regression.htm


회귀분석이란 두 연속형(서열, 등간, 비율척도 등)변수의 상관관계를 살펴보는 차원이 아니라, 관찰된 연속형 변수에 대해 독립변수와 종속변수 사이의 선형식을 구하고 그 식을 이용하여 독립변수가 주어졌을 때 종속변수를 예측하는 분석방법이다. 1개의 종속변수와 1개의 독립변수 사이의 관계를 분석할 경우를 단순회귀분석(Simple Regression Analysis), 1개의 종속변수와 여러 개의 독립변수 사이의 관계를 규명하고자 할 경우를 다중회귀분석(Multiple Regression Analysis)이라고 한다.

회귀분석(regression analysis)은 변수들 중 하나를 종속변수로 나머지를 독립변수로 하여 이들 변수들이 서로 인과관계를 가질 때 독립변수가 변화함에 따라 종속변수가 어떻게 변화하는가를 규명하는 통계기법이다. 이와 같이 회귀분석이 상관분석과 다른 점은 독립변수들의 종속변수에 대한 상대적인 중요도를 통한 예측이 가능하다는 점이다. 그리고, 회귀분석의 방향이 일방향(독립변수 → 종속변수)라면, 상관분석은 쌍방향(변수↔변수)라는 것이 가장 큰 차이점이라고 할 수가 있다.

1. Homoscedasticity: 오차항은 모든 X값에 대하여 동일한 분산을 갖는다.

2. Independence of Error: 오차항간에는 상관관계가 없어야 한다.

3. Normality: 오차항의 평균은 0이며 분산은 인 정규분포를 이루어야 한다.

4. Nomulticolinearity: 독립변수 상호간에는 상관관계가 없어야 한다.

1. 상관분석이 선형관계의 밀접한 정도만을 측정하는데 비해 회귀분석은 비선형관계 분석은 물론 독립변수가 종

속변수에 미치는 영향에 대한 확인 및 검정을 할 수 있다.

2. 상관분석은 두 변수의 임의성을 전제로 하고 회귀분석은 독립변수의 임의성과 고정성을 전제로 할 수 있다.

3. 회귀분석은 독립변수에 대한 정보를 이용하여 종속변수가 갖게 될 값을 예측할 수 있지만, 상관분석에서는 이

것이 불가능하다.

아래의 간단한 사항을 가정하여 단순회귀분석을 수행하는 예를 보도록 하자.

◇◇기업에 있어 신뢰가 고객만족에 유의적인 영향을 미치는지를 알아보고자 한다. 이를 위하여 종속변수로는 기업신뢰를 그리고 독립변수로는 고객 만족도를 선정하여 단순회귀분석을 실시하였다.

: 고객만족이 기업신뢰에 유의적인 영향을 미친다.

※ 위의 사항에 있어 사례수를 67명으로 가정하여 단순회귀분석을 실시한 결과이다.

-->Variables Entered/Removed(b)(진입/제거된 변수)

Model(모형)

Variables Entered(진입된 변수)

Variables Removed

(제거된 변수)

Method

(방법)

1

고객만족(a)

.

Enter

(입력)

a All requested variables entered.

(a) 요청된 모든 변수가 입력되었습니다.

b Dependent Variable: 기업신뢰

(b) 종속변수 : 기업신뢰

종속변수는 '기업신뢰'이며 독립변수는 '고객만족'으로 회귀식에 진입된 변수가 고객만족임을 알 수 있다. 그러나 단순 회귀분석에서의 이같은 입력방법(enter method)은 별 의미가 없다.

Model Summary(b) 모형요약

Model

(모형)

R

R Square

(R 제곱)

Adjusted R Square

(수정된 R 제곱)

Std. Error of the Estimate

(수정된 R제곱)

1

.566(a)

.320

.310

.6739

a Predictors: (Constant), 고객만족 (a) 예측값 : (상수), 고객만족

b Dependent Variable: 기업신뢰 (b)종속변수 : 기업신뢰

위의 분석결과로 표본회귀선에 대한 적합도 및 유의도 검정을 수행할 수 있다. R제곱은 .566으로서 통계분석에 이용된 케이스의 32%가 표본회귀선에 적합하다고 말할 수 있으며, 변수 고객만족과 기업신뢰도간 상관계수의 자승과 동일하다. 만일 모든 측정치들이 표본회귀선상에 머문다면 R제곱은 1이 되고, 종속변수와 독립변수간의 어떠한 선형관계도 존재하지 않는다면 R제곱은 0이 된다. R값은 .32이며 이는 두 변수간의 상관계수이다. R제곱은 모델이 모집단에 얼마나 잘 부합될 수 있는가에 대한 추정의 근거가 된다. 수정된 R제곱(Adjusted R Square)은 .32로서, 즉 .32 = 1-[(1 - .32)*(67-1)/(67-1-1)]모집단에 이 모델을 가장 잘 부합시키기 위해서 R제곱을 수정한 것이다.

ANOVA(b)분산분석

Model(모형)

Sum of Squares

(제곱합)

df

(자유도)

Mean Square

(평균제곱)

F

Sig.

유의확률

1

Regression

(선형회귀분석)

13.902

1

13.902

30.616

.000(a)

Residual(잔차)

29.516

65

.454

Total(합계)

43.418

66

a Predictors: (Constant), 고객만족(a) 예측값 : (상수), 고객만족

b Dependent Variable: 기업신뢰(b) 종속변수 : 기업신뢰

R제곱이 0이라는 가설은 모형회귀선의 기울기가 0이라는 가설과 동일하다. 이를 위한 검정이 분산분석(ANOVA)으로 수행된다. 만일 회귀가정이 충족된다면 평균분산오차에 대한 평균분산회귀의 비율은 k(독립변수 개수)와 (n-k-1)의 자유도를 가진 F분포에 따른다. F값의 제곱근은 기울기에 대한 T통계량, F통계량 모두 유의도 검정에 사용될 수 있다 또한 분산분석(ANOVA)을 통해서 표본회귀식으로 설명된 부분과 설명되지 않는 부분을 알아볼 수도 있다. 결론적으로 회귀식의 유의성은 F통계량에 의해 결정된다. 위 결과에서는 F값이 30.616로 자유도가 (1, 65)이며 유의확률값이 .000이므로 '기울기가 0이다'라는 귀무가설은 기각된을 알 수 있다. 그리고 이를 T 통계량으로 환산하면 자유도가 65이므로 30.616이 된다.

Coefficients(a)계수

Unstandardized Coefficients

(비표준화 계수)

Standardized Coefficients

(표준화계수)

t

Sig.

유의확률

Model(모형)

B

Std. Error

표준오차

Beta

1

(Constant)

(상수)

2.960

.522

5.666

.000

고객만족

.523

.094

.566

5.533

.000

a Dependent Variable: 기업신뢰 (a) 종속변수 : 기업신뢰

위 결과는 모수 추정에 대한 결과로 기울기에 대한 추정치는 .523, 기울기의 표준오차는 .034임을 알 수 있다. 따라서 다음과 같은 식이 성립된다. t = ( .155-0) / .006 = .566 T분포를 고려할 때 유의확률값이 .000이므로 유의수준 .05에서 볼 때 통계적으로 유의성이 있는 것으로 볼 수 있다. 즉 고객만족이 기업신뢰에 의적인 영향을 미친다라는 연구가설이 채택됨, 두 변수는 선형의 관계에 있다고 할 수 있다. 한편 표본회귀식에 의해 설명된 부분 (SSR)은 13.902이며 설명되지 않는 부분(SSE) 29.516이다. 따라서 R제곱은 13.902 / (13.902 + 29.516 으로도 계산할 수 있다. 표본회귀방정식으로 나타내면 기업신뢰(Y) = 2.960 + .523*(만족수)와 같이 설정된다.

Residuals Statistics(a)잔차 통계량

Minimum

(최소값)

Maximum

(최대값)

Mean

(평균)

Std. Deviation

(표준편차)

N

Predicted Value

(예측값)

4.4232

6.4095

5.8134

.4590

67

Residual

(잔차)

-1.6550

1.8041

6.231E-16

.6687

67

Std. Predicted Value

(표준화 예측값)

-3.029

1.299

.000

1.000

67

Std. Residual

(표준화 잔차)

-2.456

2.677

.000

.992

67

a Dependent Variable: 기업신뢰

(a) 종속변수 : 기업신뢰

위의 분석결과는 잔차통계량에 관한 내용을 보여주고 있다. 이는 종속변수인 기업신뢰의 예측치를 기준으로 하고 있는 것이다. 예측치를 기준으로 할 때의 최소값, 최대값, 평균, 표준편차 및 사례수(n)를 제시하고 있다. 예를 들명, 예측값에 대한 최소값은 4.4232, 최대값은 6.4095, 평균은 5.8134, 표준편차는 .4590임을 알 수 있다.

회귀분석에서 가장 중요한 문제 가운데 하나는 다중공선성의 문제로서 다중공선성의 문제를 해결하기 위해서는 유의하지 않은 변수를 제거한 다음에 다시 회귀분석을 실시하는 것이 바람직하다.

선형회귀분석이 종속변수와 독립변수 사이의 선형관계를 전제로 하는데 비해 로지스틱 회귀분석은 비선형의 로지스틱 형태를 취하며 단지 2개의 값을 가지는 종속변수(성별, 자동차의 유무 등과 같은 명목척도)와 독립변수 사이의 인과관계를 밝히는 통계기법이다. 즉 두 집단 이상의 표본에 대해 각 표본이 속하는 집단을 구분하거나, 집단을 구분하는데 있어 어느 변수가 중요한지를 찾아내는데 사용한다.

일반적인 분석기법들은 종속변수가 단지 이변량(예 : 사건이 일어날 때와 일어나지 않을 때)으로 나누어진 값만을 가질 때는 그 현상을 예측하는데 적용하기가 어렵다.

로지스틱 회귀분석(logistic regression)이란 단지 이변량의 값만을 가지는 종속변수(예 : 성별이나 주택 유무 등과 같은 명목척도)와 독립변수들 간의 관련성을 추정하는 하나의 통계기법이다.

0 comments:

Post a Comment