본문 바로가기

반응형

Machine Learning Tasks/Time Series

(13)
Partial Correlation AR, ARMA 모델의 autocorrelation function은 래그에 따라 비슷한 exponential 모양을 가지기 때문에 autocorrelation function 만으로 어떤 모델을 사용할지 결정하기가 쉽지 않습니다. 이를 위해 시계열 분석에서는 partial correlation function 또한 고려하게 됩니다. 교회의 수와 범죄의 수는 놀랍게도 양의 상관관계를 가지고 있습니다. (거의 대부분의 나라에서 통계적으로 검증되었다고 합니다.) 이것은 인구가 많아지기 때문에 교회의 수가 많아지고 범죄의 수가 많아지기 때문인데, 인구라는 외부 변수를 제거하고 상관관계를 생각하여야 합니다. Partial correlation $(\rho_{X,Y} = Corr(X,Y))$ 에서 우리는 인구라는..
Linear model, Autoregressive model, ARMA Linear model Linear model 은 시계열 데이터의 시점 $t$ 에 대한 관측치를 ($X_t$) 전 시점 관측값에 대한 선형 결합으로 구성한 모델입니다. 여기서는 가장 대표적인 선형 모델이고 white noise 들의 선형 결합인 MA (Moving Average) 를 알아보도록 하겠습니다. MA (q) (MA with order $q$) 는 다음과 같이 구성됩니다. 이때, centering을 통해 $E[X_t]=0$임을 가정하여 $\mu$를 없다고 생각하겠습니다. $X_t = a_t - \theta_1 a_{t-1} - ... - \theta_q a_{t-q}$ 간단하게 $q=1$ 인 MA(1)에 대해 생각해보도록 하겠습니다. 시계열 분석을 위해서 먼저 stationary 인지 확인을 해..
Autocorrelation, 시계열 분해, Trend estimation Autocorrelation function (ACF) 지난 포스트에서 autocovariance function $\gamma_X (h) = Cov(X_t, X_{t+h})$ 로 정의하였습니다. 공분산을 풀어쓰면 $Cov(X_t, X_{t+h})$ = $E[X_t X_{t+h}] - E[X_t]E[X_{t+h}]$ 이고 시계열 데이터는 일반적으로 평균이 0이 되도록 shifting 시킬 수 있기 때문에 (이를 demean 혹은 centering 이라 합니다.) $\gamma_X (h) = E[X_t X_{t+h}]$로 볼 수 있습니다. 앞으로 편의상 시계열 데이터의 평균은 0으로 가정하겠습니다. 공분산에서의 상관계수와 마찬가지로 확률 변수의 스케일에 무관하게 하기 위해 autocorrelation fu..
기본 개념 (2) - Stationary, White noise Stationary stochastic process 시계열 데이터는 확률 변수의 모임인 확률 과정입니다. (stochastcic process) 밑의 그림과 같이 매 시점 $t$마다 개별적인 확률 변수가 모여 있는 것이 확률 과정이 됩니다. 확률 변수와 마찬가지로 연속된 공간에서의 확률 변수 집합은 연속형 확률 과정 (continuouso stochastic process), 이산 구간일 경우에는 이산형 확률 과정이라 (discrete stochastic process) 볼 수 있습니다. 확률 과정은 시간 전이 (time shift) 에 따른 특성에 따라 stationary / nonstationary 확률 과정으로 분류할 수 있습니다. Stationary stochastic process 란 확률 과..
기본 개념 (1) - 확률 시계열 (Time Series) 데이터는 무엇일까요? 시계열 데이터란 $x_1, x_2, ... , x_n, ...$ 의 확률 변수가 시간 순으로 모아놓은 추계적 과정 (stochastic process)의 일종으로 각 시점의 값은 확률 변수 (random variable)의 realization (관측) 으로 결정됩니다. 우리가 흔히 볼 수 있는 시계열 데이터는 아마도 주가 차트일겁니다. 주가, 경제 지표 등 시간의 순으로 나열된 값들의 지표는 시계열 데이터라 볼 수 있고 우리는 이러한 시계열 데이터를 통해 시계열의 패턴을 요약하여 시간에 따른 상관관계, 추세, 계절성 등의 특징을 파악하고 과거의 패턴이 미래까지 지속된다는 가정 하에 미래 시점에 대한 예측을 하고자 합니다. 이번 포스트에서는 시계열 분..

반응형