본문 바로가기

Theory/Statistics

파이썬으로 보는 통계 (5) - F-분포

반응형

F-분포는 분산분석 (ANOVA test)에 이용되는 분포로 정규분포를 이루는 모집단에서 독립적으로 추출한 표본들의 분산비율이 나타내는 연속확률분포입니다. F-분포는 두 개 이상의 표본집단의 분산을 비교하거나 분산을 추정할 때 쓰이며, 두 개 이상의 표본평균들이 동일한 모평균을 가진 집단에서 추출되었는지 아니면 서로 다른 모집단에서 추출된 것인지를 판단하기 위하여 사용됩니다.

자유도 $k_1, k_2$의 카이제곱 분포를 따르는 두 확률변수 $V_1, V_2$가 존재할 때, 확률변수 $F$는 다음과 같이 정의되며 자유도가 $(k_1, k_2)$인 F-분포를 따른다고 합니다.

$F = \frac{V_1/k_1}{V_2/k_2}\sim F(k_1, k_2)$

F-분포의 확률밀도함수는 다음과 같이 정의되며 보통 직접 계산하지 않고 미리 만들어놓은 자유도에 따른 F-분포표를 이용합니다.

 

F-분포는 카이제곱 분포로부터 정의되니 카이제곱 분포와 마찬가지로 양수인 확률변수에서 정의되며 검정에서는 오른쪽 단측검정이 사용됩니다. F-분포는

1) 확률변수 $F$가 자유도 $(k_1, k_2)$인 F-분포를 따른다면, $\frac{1}{F}$는 자유도 $(k_2, k_1)$인 F-분포를 따르며,
2) 모분산이 각각 $\sigma_1^2, \sigma_2^2$인 정규모집단에서 서로 독립적으로 추출된 크기 $n_1, n_2$ 표본의 분산을 각각 $S_1^2, S_2^2$라 할때 다음 특성을 가지며,

$F = \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}=\frac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2} \sim F(n_1-1, n_2-1)$

3) t-분포를 제곱하면 분자와 분모의 자유도가 각각 $1, v$인 F-분포가 됩니다.

$t = \frac{Z}{\sqrt{V/v}} \to t^2=\frac{Z^2/1}{V/v} \sim F(1, v)$

In python

F-분포는 scipy.stats f 함수를 이용해 분포를 파악할 수 있습니다.

import numpy as np

X = np.linespace(0,5,201)

from scipy.stats import f

f_distribution = f.(자유도1, 자유도2).pdf(X)
반응형