본문 바로가기

encoding

(1)

Transformer Positional Encoding Transformer 제가 Transformer 논문 "Attention Is All You Need" 를 읽을때마다 느끼는 점은 self-attention, multi-head attention 모두 좋지만 positional encoding 기법만큼은 직관적으로 이해하기 쉽지 않다는 점입니다. 물론 Transformer 자체에는 입력 시퀀스 위치에 대한 정보가 없으니 positional encoding 이 필요하다는 사실은 당연하나 논문에서는 매우 짧게 cosine / sine 함수로 이루어진 식만 제공합니다. 그렇다면 위의 식은 어떠한 이유로 유도가 되었을까요? 한 번 살펴보도록 하겠습니다. Positional encoding Positional encoding 이란 주어진 시퀀스에서 특정한 위치에..

이전 1 다음

티스토리툴바