본문 바로가기

Theory/Statistics

파이썬으로 보는 통계 (5) - F-분포

반응형

F-분포는 분산분석 (ANOVA test)에 이용되는 분포로 정규분포를 이루는 모집단에서 독립적으로 추출한 표본들의 분산비율이 나타내는 연속확률분포입니다. F-분포는 두 개 이상의 표본집단의 분산을 비교하거나 분산을 추정할 때 쓰이며, 두 개 이상의 표본평균들이 동일한 모평균을 가진 집단에서 추출되었는지 아니면 서로 다른 모집단에서 추출된 것인지를 판단하기 위하여 사용됩니다.

자유도 k1,k2카이제곱 분포를 따르는 두 확률변수 V1,V2가 존재할 때, 확률변수 F는 다음과 같이 정의되며 자유도가 (k1,k2)인 F-분포를 따른다고 합니다.

F=V1/k1V2/k2F(k1,k2)

F-분포의 확률밀도함수는 다음과 같이 정의되며 보통 직접 계산하지 않고 미리 만들어놓은 자유도에 따른 F-분포표를 이용합니다.

 

F-분포는 카이제곱 분포로부터 정의되니 카이제곱 분포와 마찬가지로 양수인 확률변수에서 정의되며 검정에서는 오른쪽 단측검정이 사용됩니다. F-분포는

1) 확률변수 F가 자유도 (k1,k2)인 F-분포를 따른다면, 1F는 자유도 (k2,k1)인 F-분포를 따르며,
2) 모분산이 각각 σ12,σ22인 정규모집단에서 서로 독립적으로 추출된 크기 n1,n2 표본의 분산을 각각 S12,S22라 할때 다음 특성을 가지며,

F=S12/σ12S22/σ22=S12/S22σ12/σ22F(n11,n21)

3) t-분포를 제곱하면 분자와 분모의 자유도가 각각 1,v인 F-분포가 됩니다.

t=ZV/vt2=Z2/1V/vF(1,v)

In python

F-분포는 scipy.stats f 함수를 이용해 분포를 파악할 수 있습니다.

import numpy as np

X = np.linespace(0,5,201)

from scipy.stats import f

f_distribution = f.(자유도1, 자유도2).pdf(X)
반응형