본문 바로가기

반응형

Theory/Statistics

(17)
Regression - R-square Fitting 한 회귀 모델이 데이터에 얼마나 잘 맞는지 정량적으로 어떻게 판단할 수 있을까요? $R^2$, 결정계수는 회귀모형의 설명력을 측정하는 데 사용하는 대표적인 회귀모델 성능측정 지표입니다. 위와 같이 4개의 표본이 있고 $b_0+b_1 X$ 회귀직선을 그렸습니다 우상단의 한 점을 봤을 때 해당 $Y_i$는 평균 $\bar{Y}$로부터 $Y_i-\bar{Y}$ 만큼 떨어져 있고 이 값은 회귀직선으로부터 $\hat{Y}_i-\bar{Y}$ 만큼 설명되고 $Y_i-\hat{Y}_i$ 부분이 설명이 되지 않습니다. 즉, 다음과 같이 $Y_i-\bar{Y}$ 를 풀어쓸 수 있고 $Y_i-\bar{Y}$ $=$ $(\hat{Y}-\bar{Y}) + (Y_i-\hat{Y}_i)$ $=$ $(\hat{Y}_..
Regression - 단순 선형 회귀 회귀 분석 (Regression) 이란 어떤 변수가 다른 변수에 어떻게 영향을 주는지 설명하는 분석 방법으로 영향을 주는 변수 (독립 변수, independent variable) 와 영향을 받는 변수 (종속 변수, dependent/response variable) 로 구성되어 종속 변수 1개, 독립 변수가 1개일 때는 단순 회귀 분석 (simple regression), 독립 변수가 2개 이상일 때는 다중 회귀 분석 (multiple regression) 이라 불립니다. 이번 포스트에서 살펴볼 내용은 회귀 분석에서 가장 기본적인 단순 선형 회귀 모델 (simple linear regression) 입니다. Simple linear regression 단순 회귀 분석은 일반적으로 Classical Li..
파이썬으로 보는 통계 (7) - 분산분석, ANOVA 분산분석 (ANOVA, ANalysis Of VAriance) 이란 두개 이상의 모집단을 비교할때 사용하는 통계 검정방법으로 t-검정과는 달리 F-분포를 이용한 F-검정의 한 종류입니다. t-검정은 두 집단에 대해서 비교를 하는 것이지만 ANOVA의 경우 두개 이상의 그룹에 대해서도 비교가 가능합니다. ANOVA 수행을 위해서는 1) 데이터가 정규분포를 따르며, 2) 각 모집단의 분산이 동일하며 (등분산), 3) 각각의 모집단에서 샘플이 독립적으로 추출된다는 전제조건이 만족되어야 합니다. 여러 개의 집단 비교시 ANOVA를 사용하는 이유는 t-검정으로 두 집단씩 여러번 비교하게 되면 신뢰도 $1-\alpha$가 독립적으로 여러 번 곱해지므로 신뢰도가 급격하게 감소하게 됩니다. 하지만 분산분석은 F-분포를..
파이썬으로 보는 통계 (6) - F-검정을 이용한 등분산검정 F-검정은 두 개 이상의 모집단에 대한 분산 비교를 통한 검정으로 두 모집단이 같은 분산을 가지고 있는지와 (등분산검정) 이후 다룰 ANOVA (분산분석)에 사용됩니다. 이번 포스트에서 다룰 내용은 F-검정을 이용해 정규분포를 따르는 두 모집단이 같은 분산을 가지고 있는지 (등분산인지) 확인하는 등븐산검정을 살펴보려 합니다. F-분포가 모분산이 각각 $\sigma_1^2, \sigma_2^2$인 정규모집단에서 서로 독립적으로 추출된 크기 $n, m$ 표본의 분산을 각각 $S_1^2, S_2^2$라 할때 다음 특성을 가진다는 사실을 이용하고, $F = \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}=\frac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2} \si..
파이썬으로 보는 통계 (5) - F-분포 F-분포는 분산분석 (ANOVA test)에 이용되는 분포로 정규분포를 이루는 모집단에서 독립적으로 추출한 표본들의 분산비율이 나타내는 연속확률분포입니다. F-분포는 두 개 이상의 표본집단의 분산을 비교하거나 분산을 추정할 때 쓰이며, 두 개 이상의 표본평균들이 동일한 모평균을 가진 집단에서 추출되었는지 아니면 서로 다른 모집단에서 추출된 것인지를 판단하기 위하여 사용됩니다. 자유도 $k_1, k_2$의 카이제곱 분포를 따르는 두 확률변수 $V_1, V_2$가 존재할 때, 확률변수 $F$는 다음과 같이 정의되며 자유도가 $(k_1, k_2)$인 F-분포를 따른다고 합니다. $F = \frac{V_1/k_1}{V_2/k_2}\sim F(k_1, k_2)$ F-분포의 확률밀도함수는 다음과 같이 정의되며 보통..
파이썬으로 보는 통계 (4) - 카이제곱 검정 카이제곱 검정은 교차분석이라고도 불리며, 두 범주형 변수 $A, B$가 서로 종속사건인지 독립사건인지 판별하는 것으로 각 범주형 변수에서 관찰된 빈도와 기대 빈도와 얼마나 다른지를 검증합니다. 종속사건이란 사건 $A$가 발생 후 사건 $B$가 발생할 확률과 ($P(B|A)$) 사건 $B$가 발생할 확률이 ($P(B)$) 다른 경우로 두 개의 사건이 독립적이지 않고 어떠한 형태로 연관되어 있는 사건을 말합니다. 카이제곱 검정에 사용하는 카이제곱 검정통계량은 데이터 분포와 가정된 분포 사이의 차이를 나타내는 측정값으로 가정된 분포란 귀무가설일 경우의 분포를 말합니다. 카이제곱 검정에서의 귀무가설은 두 범주형 변수가 독립 사건이다 라고 가정한 것으로 카이제곱 통계량은 다음과 같이 정의됩니다. $\chi^2 =..
파이썬으로 보는 통계 (3) - t-검정 t-검정은 표본 데이터에서 t-분포를 이용해 검정통계량 $t$를 계산하고 이를 이용하여 두 그룹 간의 모평균에 차이가 있는지를 검정하는 방법입니다. t-분포를 이용해 샘플 크기가 $n$ 충분히 클 경우 모평균은 확률 $1-\alpha$ 신뢰도로 다음과 같이 추정할 수 있으며 (양측 검정의 경우), 이를 이용하여 표본평균과 모평균의 차이를 검정하고 두 그룹 간의 모평균의 차이를 검정할 수 있습니다. 1 sample t-검정 1 sample t-검정은 단일 집단에 대해 평균에 대해 가설을 검정하기 위해 사용합니다. 일반적으로 모집단의 평균이 특정 값으로 알려져있는 경우 모집단의 평균이 특정 값과 같은 지에 대해 가설을 세우고 검증하는 방법입니다. 모집단으로부터 $n$개의 표본 $X_1, ..., X_n$을 ..
파이썬으로 보는 통계 (2) - t-분포 Student-t 분포는 표본평균을 이용해 정규분포의 평균을 측정할 때 사용되는 분포로 표준정규분포를 따르는 확률변수 $Z$와 자유도가 $v$인 카이제곱 분포를 따르는 확률변수 $V$로 다음과 같이 정의하면 확률변수 $T$는 자유도가 $v$인 t-분포를 따릅니다. $T=\frac{Z}{\sqrt{\frac{V}{v}}}$ 정규분포 $N(\mu, \sigma^2)$에서 추출한 $n$개의 표본 $X_1, ..., X_n$에 대해 표본평균 $X_m = \frac{1}{n}(X_1+...+X_n)$, 표본분산 $S^2=\frac{1}{n-1}\sum(X_i-X_m)^2$라 할 때, $V=(n-1)\frac{S^2}{\sigma^2}$는 자유도가 $n-1$인 카이제곱 분포를 따릅니다. (Cochran의 정리) $..

반응형