본문 바로가기

반응형

Machine Learning Tasks

(67)
Deep One-Class Classification 이 논문은 ICML 2018에 발표된 논문으로 이전의 이상 탐지는 One Class SVM (OC-SVM) 이나 Kernel Density Estimation (KDE) 등의 전통적인 방법을 사용하거나 다른 목적으로 훈련된 deep neural networks를 이상 탐지에 전용하여 사용했습니다. 이 논문은 이상 탐지를 위해 밑의 그림과 같은 Deep Support Data Description (Deep SVDD) 모델을 제안합니다. 위 그림을 보시면 Deep SVDD는 $\phi(;W)$로 표현된 neural networks 가 데이터 $X$를 feature space $F$로 변환합니다. 변환할 때, 대부분의 데이터가 feature space 상의 중심 $c$에서 반경 $R$을 가진 hypersph..
Multivariate Time Series (1) - 기본 확률 이번 포스트에서는 다변수 시계열 데이터 분석을 위한 기본 확률 개념을 알아보도록 하겠습니다. Multivariate time series 이전 포스트들에서는 단변수 시계열 데이터를 다뤘습니다. 다변수 시계열 데이터는 한 개가 아닌 여러 개의 feature로 구성된 데이터로 하나의 시점에서 스칼라 값이 아닌 다음과 같이 벡터로 표현됩니다. 여기서 $m$은 데이터의 feature 차원이 되겠죠. 먼저 평균은 다음과 같이 각각의 기대값이 쌓아진 벡터로 표현됩니다. Covariance matrix Covariance는 다변수이기 때문에 값이 아닌 행렬로 주어집니다. 단변수의 경우 1x1 matrix이기 때문에 스칼라 값이 되는 것이죠. Covariance matrix는 $\sum_X=[Cov(X_i,X_j)]_..
Exponential Smoothing, CMA, Winter's Method Exponential smoothing $\hat{X}_{t+1}=\alpha X_t + (1-\alpha)\hat{X}_t$ 식을 생각해 보겠습니다. ($\alpha$는 smoothing 계수입니다) ARIMA(0,1,1) = $X_t=X_{t-1}+a_t-\theta a_{t-1}$ 는 정리하면 $a_t=(1-\theta B)^{-1}(X_t-X_{t-1})$ 로 표현할 수 있습니다. 이를 다시 풀어쓰면 $a_t$=$X_t-(1-\theta)X_{t-1}-\theta(1-\theta)X_{t-2}-...$가 되고 이를 다시 $X_t$에 대해 풀어쓰면 $X_t$=$a_t+(1-\theta)X_{t-1}+\theta (1-\theta)X_{t-2}+\theta^2 (1-\theta)X_{t-3}+...$..
Nonstationary process, ARIMA, SARIMA 일반적인 시계열 데이터는 stationary 하지 않습니다. 대부분 추세를 가지고 있고 따라서 stationary의 가정과 같이 평균이 상수로 일정하지 않습니다. 이전 포스트에서 알아봤듯이 추세를 제거해서 stationary 한 신호를 만들어 분석을 수행하게 됩니다. $X_t = X_{t-1} + a_t$의 데이터는 어떻게 될까요? 노이즈가 껴있긴 하지만 선형으로 증가하는 추세를 가지게 될겁니다. 그렇다면 이를 1차 difference ($\nabla X_t = X_t - X_{t-1}$) 를 수행하면 평균이 일정하게 되므로 stationary 하게 만들 수 있습니다. 추세가 quadratic하게 증가하는 시계열 데이터는 어떻게 다룰 수 있을까요? 이런 상황에는 2차 difference ($\nabla ..
Parameter Estimation, Model Redundancy, Prediction Parameter estimation 이 장에서는 ARMA 모델의 파라미터를 추측하는 일반적인 방법에 대해 설명하고자 합니다. 지금까지 살펴봤던 방법으로는 ordinary least square (OLS) 를 이용한 회귀 분석이나 correlation 을 이용한 Yule-Walker equation 이 있습니다. 각 모델마다 일일히 구하는 것 대신 보다 일반적인 방법은 없을까요? Conditional minimization 이 방법은 error 를 최소화하는 방향으로 파라미터를 찾는 방법입니다. 에러를 최소화한다는 것은 에러가 white noise 로 가정한 정규 분포에 대한 우도가 최대화하는 것과 같은 말이라 생각할 수 있습니다. MA(1) ($X_t = a_t - \theta a_{t-1}$) 에 대..
시계열 모델 building 주어진 시계열 데이터에 대해서 일반적으로 1. AR, MA, ARMA 등 어떠한 모델을 사용할 것인지, 2. 모델을 정했으면 모델의 파라미터를 어떻게 구할 것인지, 3. 구한 모델이 합리적인지, 4. 예측 의 단계로 이루어집니다. (Box-Jenkins approach) 1, 3번에 대해서 ACF와 PACF를 이용하고 모델을 fitting 하고 난 이후의 나머지에 대해 Box-Ljung test, Sign test, Rank test, q-q plot 등을 수행하여 나머지가 white noise $a_t$ 와 비슷한지 테스트를 수행하게 됩니다. 또한, AIC, BIC 등을 이용하여 fitting 한 모델의 예측 스코어를 분석하거나 cross validation 을 하여 여러 모델의 적합성을 검사하게 됩니..
Partial Correlation AR, ARMA 모델의 autocorrelation function은 래그에 따라 비슷한 exponential 모양을 가지기 때문에 autocorrelation function 만으로 어떤 모델을 사용할지 결정하기가 쉽지 않습니다. 이를 위해 시계열 분석에서는 partial correlation function 또한 고려하게 됩니다. 교회의 수와 범죄의 수는 놀랍게도 양의 상관관계를 가지고 있습니다. (거의 대부분의 나라에서 통계적으로 검증되었다고 합니다.) 이것은 인구가 많아지기 때문에 교회의 수가 많아지고 범죄의 수가 많아지기 때문인데, 인구라는 외부 변수를 제거하고 상관관계를 생각하여야 합니다. Partial correlation $(\rho_{X,Y} = Corr(X,Y))$ 에서 우리는 인구라는..
Linear model, Autoregressive model, ARMA Linear model Linear model 은 시계열 데이터의 시점 $t$ 에 대한 관측치를 ($X_t$) 전 시점 관측값에 대한 선형 결합으로 구성한 모델입니다. 여기서는 가장 대표적인 선형 모델이고 white noise 들의 선형 결합인 MA (Moving Average) 를 알아보도록 하겠습니다. MA (q) (MA with order $q$) 는 다음과 같이 구성됩니다. 이때, centering을 통해 $E[X_t]=0$임을 가정하여 $\mu$를 없다고 생각하겠습니다. $X_t = a_t - \theta_1 a_{t-1} - ... - \theta_q a_{t-q}$ 간단하게 $q=1$ 인 MA(1)에 대해 생각해보도록 하겠습니다. 시계열 분석을 위해서 먼저 stationary 인지 확인을 해..

반응형