시계열 모델 building

주어진 시계열 데이터에 대해서 일반적으로 1. AR, MA, ARMA 등 어떠한 모델을 사용할 것인지, 2. 모델을 정했으면 모델의 파라미터를 어떻게 구할 것인지, 3. 구한 모델이 합리적인지, 4. 예측 의 단계로 이루어집니다. (Box-Jenkins approach)

1, 3번에 대해서 ACF와 PACF를 이용하고 모델을 fitting 하고 난 이후의 나머지에 대해 Box-Ljung test, Sign test, Rank test, q-q plot 등을 수행하여 나머지가 white noise $a_t$ 와 비슷한지 테스트를 수행하게 됩니다. 또한, AIC, BIC 등을 이용하여 fitting 한 모델의 예측 스코어를 분석하거나 cross validation 을 하여 여러 모델의 적합성을 검사하게 됩니다.

Checking residuals

먼저 모델을 fitting 한 이후의 나머지가 white noise에 얼마나 가까운지 테스트하는 방법에 대해 살펴보겠습니다.

ACF of residuals

먼저 나머지 (잔차) 시계열이 white noise와 가깝다면 이것의 ACF는 어떤 특성을 가지게 될까요? 결과부터 말하면 $\hat{\rho} (h) \sim N(0, \frac{1}{\sqrt{n}})$ 이 되게 됩니다. 즉, $\frac{2}{\sqrt{n}}$ 안에 있는 값들은 95% 신뢰도로 0이라고 판단할 수 있는 것입니다. 왜 그럴까요?

주어진 나머지 시계열에서 $\hat{\rho} (h)$ 로 계산할 수 있습니다. ( $E[a_t] = 0, Var[a_t] = 1$ 로 가정하였습니다) 먼저 평균 $E[\hat{\rho} (h)]$ 는 $a_t a_{t-h}$ 가 서로 uncorrelated 되어 있으므로 0이 됩니다. 분산의 경우에는 $Var(X+Y)$ = $Var(X) + 2Cov(X,Y) + Var(Y)$ 를 이용하면 $\frac{1}{N-h}$ 가 되게 됩니다. 데이터 개수 $N$ 은 충분히 크다고 가정하면 중심극한정리에 의해 정규분포가 되고 $N-h \approx N$ 이므로 $\hat{\rho} (h) \sim N(0, \frac{1}{\sqrt{n}})$ 임을 알 수 있습니다. 또한 신뢰도 구간은 $\frac{2}{\sqrt{n}}$ 으로 정합니다.

Ljung-Box-Pierce Q statistics

이 방법은 chi-square test의 일종으로 ARMA(p,q) 모델에 적용됩니다. 잔차가 white noise를 따른다면 $\hat{\gamma} (h) \sim N(0, \frac{1}{n})$ 이 되는데, 정규분포를 만들기 위해 $\sqrt{n}$ 을 곱하면 $\sqrt{n}\hat{\gamma} (h) \sim N(0,1)$ 이 되고 이를 제곱하면 자유도가 1인 chi-square 분포 ( $\chi_1^2$ )가 됩니다. 독립된 chi-squre 분포를 더하면 자유도가 더해지는 정리를 이용하면 다음과 같은 Q statitics를 얻을 수 있습니다.

$Q = n\sum_{h=1}^{k} \hat{\gamma} (h) \sim \chi_{k-p-q}^2$

만약 white noise에서 많이 벗어난다면 Q의 값이 커질 것입니다. (rare case를 생각하면 됩니다) 즉, Q값이 커지면 chi-squre 분포에서 드문 경우이므로 white noise가 아닐 확률이 높아지는 원리입니다. 따라서 더 적합한 다른 모델이 있을 수 있다는 것이죠. 일반적으로 k는 20 정도를 사용합니다.

Jarque-Bera test

모델 fitting 이후의 잔차의 분포가 normal distribution의 skewness와 kurtosis를 따르는지 확인합니다. Normal distribution의 skewness는 대칭성에 의해 0, kurtosis는 3을 가지니 잔차의 분포가 이 값에 가까워야 합니다. JB 스코어는 다음과 같이 계산합니다. ( $S$ : Skewness, $K$ : Kurtosis)

$JB = \frac{n}{6}(S^2+\frac{1}{4} (K-3)^2)$

q-q plot

q-q plot은 quantile-quantile plot의 약자로 두 분포의 유사성을 quantile 값에 따라 비교해가며 plot으로 표현한 것입니다. 나머지 시계열 분포와 정규 분포의 q-q plot을 비교하고 나머지의 분포가 white noise에 가깝다면 q-q plot은 거의 직선의 형태에 가깝게 될 것입니다.

Model selection

어떤 모델이 예측을 더 잘하는지 어떻게 판별할 수 있을까요? AIC (Akaike Information Criteria), BIC (Bayesian Information Criteria) 값을 통해 판단할 수 있습니다.

AIC는 $-2\log (\hat{L}) + \frac{2(p+q+1)n}{n-p-q-2}$ 값으로 책마다 식이 약간씩 변할 수는 있으나 근본은 똑같습니다, 식에서 $\hat{L}$ 은 모델의 우도 (likelihood)로 모델이 얼마나 잘 fitting이 되었는지를 나타냅니다. 즉, 우도가 높다면 모델 fitting이 잘 되었다고 생각할 수 있겠죠. 두 번째 항은 모델의 복잡도를 나타냅니다. p, q가 커질수록 ARMA 의 order를 높이는 것이므로 모델이 복잡해질 것입니다. 이 상황에서 우리는 AIC가 최소값을 가지는 모델을 선택합니다. 즉, 모델의 fitting 력과 모델의 복잡도 사이의 trade-off 에 따라 모델을 선택하는 것이죠.

BIC의 경우도 AIC의 거의 비슷합니다. BIC는 $-2\log (\hat{L}) + 2(p+q+1)\log{n}$ 값이고 AIC와 마찬가지 원리로 최소값을 가지는 모델을 선택합니다.

'Machine Learning Tasks > Time Series' 카테고리의 다른 글

Nonstationary process, ARIMA, SARIMA (0)	2021.03.11
Parameter Estimation, Model Redundancy, Prediction (0)	2021.03.10
Partial Correlation (0)	2021.03.10
Linear model, Autoregressive model, ARMA (0)	2021.03.08
Autocorrelation, 시계열 분해, Trend estimation (0)	2021.03.07

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

홍러닝

시계열 모델 building

Checking residuals

ACF of residuals

Ljung-Box-Pierce Q statistics

Jarque-Bera test

q-q plot

Model selection

'Machine Learning Tasks > Time Series' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

시계열 모델 building

Checking residuals

ACF of residuals

Ljung-Box-Pierce Q statistics

Jarque-Bera test

q-q plot

Model selection

'Machine Learning Tasks > Time Series' 카테고리의 다른 글

'Machine Learning Tasks/Time Series' Related Articles

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역