본문 바로가기

반응형

분류 전체보기

(369)
EfficientNet Convolution Neural Networks (CNN) 은 일반적으로 레이어가 많고 (deep), feature map의 수가 많고 (wide), resolution이 커야 더 좋은 성능을 얻을 수 있습니다. 하지만 구현 환경에 따른 resource는 한정되어 있다보니 baseline CNN을 구성한 이후 성능을 높이기 위해 굉장히 heuristic한 scaling을 하여 CNN의 complexity를 높이게 됩니다. EfficientNet은 CNN의 feature map 개수 (width), 레이어 개수 (deep), resolution 을 일정한 비율로 증가시키는 compound scaling 방법을 제안하였습니다. 이는 기존에 구성한 baseline 모델에 대해 모델의 depth, width,..
Parameter Estimation, Model Redundancy, Prediction Parameter estimation 이 장에서는 ARMA 모델의 파라미터를 추측하는 일반적인 방법에 대해 설명하고자 합니다. 지금까지 살펴봤던 방법으로는 ordinary least square (OLS) 를 이용한 회귀 분석이나 correlation 을 이용한 Yule-Walker equation 이 있습니다. 각 모델마다 일일히 구하는 것 대신 보다 일반적인 방법은 없을까요? Conditional minimization 이 방법은 error 를 최소화하는 방향으로 파라미터를 찾는 방법입니다. 에러를 최소화한다는 것은 에러가 white noise 로 가정한 정규 분포에 대한 우도가 최대화하는 것과 같은 말이라 생각할 수 있습니다. MA(1) ($X_t = a_t - \theta a_{t-1}$) 에 대..
시계열 모델 building 주어진 시계열 데이터에 대해서 일반적으로 1. AR, MA, ARMA 등 어떠한 모델을 사용할 것인지, 2. 모델을 정했으면 모델의 파라미터를 어떻게 구할 것인지, 3. 구한 모델이 합리적인지, 4. 예측 의 단계로 이루어집니다. (Box-Jenkins approach) 1, 3번에 대해서 ACF와 PACF를 이용하고 모델을 fitting 하고 난 이후의 나머지에 대해 Box-Ljung test, Sign test, Rank test, q-q plot 등을 수행하여 나머지가 white noise $a_t$ 와 비슷한지 테스트를 수행하게 됩니다. 또한, AIC, BIC 등을 이용하여 fitting 한 모델의 예측 스코어를 분석하거나 cross validation 을 하여 여러 모델의 적합성을 검사하게 됩니..
Partial Correlation AR, ARMA 모델의 autocorrelation function은 래그에 따라 비슷한 exponential 모양을 가지기 때문에 autocorrelation function 만으로 어떤 모델을 사용할지 결정하기가 쉽지 않습니다. 이를 위해 시계열 분석에서는 partial correlation function 또한 고려하게 됩니다. 교회의 수와 범죄의 수는 놀랍게도 양의 상관관계를 가지고 있습니다. (거의 대부분의 나라에서 통계적으로 검증되었다고 합니다.) 이것은 인구가 많아지기 때문에 교회의 수가 많아지고 범죄의 수가 많아지기 때문인데, 인구라는 외부 변수를 제거하고 상관관계를 생각하여야 합니다. Partial correlation $(\rho_{X,Y} = Corr(X,Y))$ 에서 우리는 인구라는..
Linear model, Autoregressive model, ARMA Linear model Linear model 은 시계열 데이터의 시점 $t$ 에 대한 관측치를 ($X_t$) 전 시점 관측값에 대한 선형 결합으로 구성한 모델입니다. 여기서는 가장 대표적인 선형 모델이고 white noise 들의 선형 결합인 MA (Moving Average) 를 알아보도록 하겠습니다. MA (q) (MA with order $q$) 는 다음과 같이 구성됩니다. 이때, centering을 통해 $E[X_t]=0$임을 가정하여 $\mu$를 없다고 생각하겠습니다. $X_t = a_t - \theta_1 a_{t-1} - ... - \theta_q a_{t-q}$ 간단하게 $q=1$ 인 MA(1)에 대해 생각해보도록 하겠습니다. 시계열 분석을 위해서 먼저 stationary 인지 확인을 해..
Autocorrelation, 시계열 분해, Trend estimation Autocorrelation function (ACF) 지난 포스트에서 autocovariance function $\gamma_X (h) = Cov(X_t, X_{t+h})$ 로 정의하였습니다. 공분산을 풀어쓰면 $Cov(X_t, X_{t+h})$ = $E[X_t X_{t+h}] - E[X_t]E[X_{t+h}]$ 이고 시계열 데이터는 일반적으로 평균이 0이 되도록 shifting 시킬 수 있기 때문에 (이를 demean 혹은 centering 이라 합니다.) $\gamma_X (h) = E[X_t X_{t+h}]$로 볼 수 있습니다. 앞으로 편의상 시계열 데이터의 평균은 0으로 가정하겠습니다. 공분산에서의 상관계수와 마찬가지로 확률 변수의 스케일에 무관하게 하기 위해 autocorrelation fu..
기본 개념 (2) - Stationary, White noise Stationary stochastic process 시계열 데이터는 확률 변수의 모임인 확률 과정입니다. (stochastcic process) 밑의 그림과 같이 매 시점 $t$마다 개별적인 확률 변수가 모여 있는 것이 확률 과정이 됩니다. 확률 변수와 마찬가지로 연속된 공간에서의 확률 변수 집합은 연속형 확률 과정 (continuouso stochastic process), 이산 구간일 경우에는 이산형 확률 과정이라 (discrete stochastic process) 볼 수 있습니다. 확률 과정은 시간 전이 (time shift) 에 따른 특성에 따라 stationary / nonstationary 확률 과정으로 분류할 수 있습니다. Stationary stochastic process 란 확률 과..
기본 개념 (1) - 확률 시계열 (Time Series) 데이터는 무엇일까요? 시계열 데이터란 $x_1, x_2, ... , x_n, ...$ 의 확률 변수가 시간 순으로 모아놓은 추계적 과정 (stochastic process)의 일종으로 각 시점의 값은 확률 변수 (random variable)의 realization (관측) 으로 결정됩니다. 우리가 흔히 볼 수 있는 시계열 데이터는 아마도 주가 차트일겁니다. 주가, 경제 지표 등 시간의 순으로 나열된 값들의 지표는 시계열 데이터라 볼 수 있고 우리는 이러한 시계열 데이터를 통해 시계열의 패턴을 요약하여 시간에 따른 상관관계, 추세, 계절성 등의 특징을 파악하고 과거의 패턴이 미래까지 지속된다는 가정 하에 미래 시점에 대한 예측을 하고자 합니다. 이번 포스트에서는 시계열 분..

반응형