논문리뷰 (paper review); Attention Is All You Need
구글에서 2017 NIPS 에서 발표했고 당시 엄청난 센세이션을 일으켜 AI의 흐름을 바꿨다는 평을 받은 논문, Attention is all you need 이다. 기존에 seq2seq (sequence to sequence) model에서 사용되던 RNN 부분을 self-attention으로 대체하여 performance를 높였다는 논문이다. 아무래도 잘은 모르겠지만 RNN 부분이 꽤나 많은 overhead를 잡아먹었나 본데 이를 attention으로 대체하여 오직 attention 만을 사용하는 transformer model을 제시한 것이 주요 아이디어라 할 수 있다. (심지어 performance도 기존 seq2seq보다 transformer가 더 좋다는 것이 놀랍다)
Introduction & Background
Model Architecture
encoder & decoder
Attention
Multi-head attention
Applications of attention in Transformer
Transformer 안에서 사용되는 attention은 총 3가지의 종류가 있다.
Position-wise Feed-Forward Networks
Padding Mask
전체 Transformer 구조
Positional Encoding
Pros of Self-attention
Training
이 paper에서 training 한 방식이다.
Leave a comment