본문 바로가기

반응형

Convolution

(2)
Temporal Convolutional Network (TCN) Transformer 모델이 등장하기 전에는 자연어처리, 시계열 데이터 처리 등에는 RNN의 LSTM/GRU 모델이 압도적으로 많이 사용되었습니다. 그 와중에서 convolution의 locality를 잡는 특성과 dilation을 이용해 receptive field를 넓힌 WaveNet의 등장 이후 1차원 convolution을 시퀀스 데이터에 적용하려는 시도가 많이 있었는데요, 이번 포스트에서 알아볼 내용은 다양한 시퀀스 벤치마크 데이터셋에 대해서 LSTM/GRU에 비해 높은 성능을 보인 TCN (Temporal Convolutional Network) 모델입니다. Temporal convolutional network Causal convolutions 먼저 시퀀스 모델링을 입력 시퀀스 $x_0, ..
Convolution 의 종류 이번 포스트에서는 convolution 의 기능을 유지하면서 소요되는 파라미터 수와 연산량을 줄이기 위한 다양한 convolution 기법들에 대해 살펴보도록 하겠습니다. 먼저 $W, H, C, K, M$을 각각 입력의 너비, 높이, 채널, 커널 사이즈, 출력 채널 수로 정의하고 stride가 1인 일반적인 상황을 가정하여 입력, 출력 사이즈가 동일하다고 전제합니다. Standard convolution 일반적인 convolution 수행을 위해 몇 개의 파라미터가 필요할까요? 먼저 커널의 사이즈가 $K$이고 입력 채널 수가 $C$이므로 하나의 커널이 가지는 파라미터 수는 $K^2\cdot C$가 됩니다. 이 하나의 커널이 출력의 하나의 채널을 형성하므로 총 $K^2\cdot C\cdot M$개의 파라미..

반응형