본문 바로가기

Theory/Statistics

Regression - 다중 선형 회귀

반응형

지난 포스트에서 살펴봤던 단순 선형 회귀에 이어 이번 포스트에서는 다중 선형 회귀에 대해 살펴보도록 하겠습니다. 독립 변수 1개만으로 종속 변수를 설명했던 단순 선형 회귀와 달리 다중 선형 회귀는 $k$개의 독립 변수로 종속 변수를 예측하는 것으로 다음과 같이 모델링 할 수 있습니다.

$Y = \beta_0 + \beta_1 X_1 + ... + \beta_k X_k + \epsilon$

단순 선형 회귀와 거의 비슷하나 다중 회귀 분석에서는 추가하여 고려해야할 사항 1) 다중공선성 (multicollinearity), 2) F-통계량 이 있습니다.

Multiple linear regression

다중공선성 (Multicollinearity)

단순 선형 회귀에서 7가지 가정을 살펴보았는데, 다중 선형 회귀에서는 다중공선성 가정을 추가해야 합니다. 다중 공선성이란 다중 선형 회귀에서 독립 변수 사이에 강한 상관관계가 성립하는 문제로 이와 같은 현상이 발생할 경우 예측 모델이 부정확해지고 종속 변수에 대한 독립 변수의 개별 효과를 분리하기 어려우므로 사전에 처리해주는 작업이 필요합니다. 여기서부터 변수 선택 (feature selection)의 개념이 나오게 되는데 이는 다른 포스트에서 설명하도록 하겠습니다.

Fitting

다중 선형 회귀 또한 최소제곱법을 사용하여 추정할 수 있습니다. 다음과 같이 SSE (통계학에서는 RSS, Residual Sum of Squares 를 주로 사용합니다)를 정의하고,

$SSE = \sum e_i^2 = \sum (Y_i-\hat{Y}_i)^2=\sum (Y_i-\hat{\beta}_0-\hat{\beta}_1 x_1-...-\hat{\beta}_k x_k)^2$

를 최소화하는 회귀계수를 구하게 됩니다. 마찬가지로 추정치 $\hat{y}$와 실제값 $y$의 차이를 잔차, residual이라 합니다.

Hypothesis tests

단순 회귀 분석에서는 t-검정을 통해 회귀 계수의 통계적 유의성을 검정했습니다. 하지만 다중 회귀 분석에서는 회귀 계수에 대한 통계 검정을 수행하기 전 모형 자체의 통계적 유의성을 F-검정을 이용해 검정합니다. 왜 단순 회귀 분석처럼 개별 회귀계수에 t-검정을 하지 않고 F-검정을 수행할까요? 

이는 개별적인 t-검정으로 인한 1종 오류의 지수 누적을 방지하기 위해서입니다. 1종 오류란 귀무가설이 참이지만 이를 기각할 확률을 말하는 것으로서 (2종 오류는 반대로 대립가설이 참이지만 이를 기각할 확률입니다) 1종 오류를 범할 확률이 0.05 (유의 수준)이라 하면 100번 중 5번은 귀무가설이 오류에 의해 기각되게 됩니다. 즉, 개별 회귀계수에 유의수준 5% 로 t-검정을 실시한다면, 실제로는 모두 유의미하지 않더러도 1종 오류로 인해 100개의 회귀계수 중 5개는 유의한 것으로 판별하게 됩니다.

  • 여러 번의 독립된 t-검정을 수행할 경우 1종 오류가 지수적으로 증가하게 됩니다. 예를 들어 네 집단에 대해 유의수준 0.05의 t-검정을 수행할 경우 $1-(1-0.05)^4=0.28$로 1종 오류 확률이 증가하게 됩니다.

따라서 다중 회귀 분석에서는 이런 현상을 방지하기 위해 F-검정으로 전부 유의미하지 않은 값은 아니다라나는 것을 확인한 뒤에 개별 회귀계수에 대한 t-검정을 수행하여 선형 관계를 밝혀내게 됩니다.

먼저 다중 선형 회귀 모델에 대한 F-검정을 위해서 다음과 같은 귀무가설과 대립가설을 수립합니다.

귀무가설 ($H_0$): $\beta_1=\beta_2=...=\beta_k=0$, 모든 독립 변수는 종속 변수와 상관관계가 없다.
대립가설 ($H_1$): 적어도 하나의 $\beta_i$는 0이 아니다.

이후에 F 통계량을 다음과 같이 정의하며, 오차항이 정규분포를 따르고 귀무가설이 참일 경우 F-분포를 따르게 됩니다.

$F=\frac{R^2/k}{(1-R^2)/(n-k-1)}=\frac{SSR/k}{SSE/(n-k-1)}$

오차항이 정규분포를 따른다면 잔차의 분산은 오차항의 분산 (모오차)이 되므로 F 통계량의 분모는 $\sigma^2$가 됩니다. 또한 귀무가설이 참이라면 회귀분석으로 설명되는 잔차가 없으므로 F 통계량의 분자 또한 모오차의 분산인 $\sigma^2$가 되어 F 통계량이 1이 됩니다. 즉, 독립 변수와 종속 변수가 상관관계가 없는 경우 F 통계량은 1에 매우 가까운 값이 되며 상관관계가 있는 경우 F 통계량이 커져 p-value가 낮아지게 됩니다.

F 통계량으로 모형의 통계적 유의성을 확인하고 개별 회귀계수에 대한 t-검정을 수행하여 각 회귀계수에 대한 통계적 유의성을 검정하게 됩니다. F 통계량은 독립 변수의 개수인 $k$가 상대적으로 작고 데이터 수인 $n$이 클 때 귀무가설을 기각할 확률이 높아지게 되는데 이에 따라 매우 상관있는 독립 변수를 추출하는 변수 선택이 중요하게 됩니다. 이는 변수 선택 포스트에서 자세히 다룰 계획입니다.

마지막으로 $R^2$로 모델의 설명력을 평가합니다. 하지만 새로운 변수가 전혀 도움이 되지 않더라도 변수가 추가됨에 따라 $R^2$가 증가하기 때문에 수정된 결정계수, adjusted $R^2$를 사용합니다.

 

참고

반응형