구글에서 2017 NIPS 에서 발표했고 당시 엄청난 센세이션을 일으켜 AI의 흐름을 바꿨다는 평을 받은 논문, Attention is all you need 이다. 기존에 seq2seq (sequence to sequence) model에서 사용되던 RNN 부분을 self-attention으로 대체하여 performance를 높였다는 논문이다. 아무래도 잘은 모르겠지만 RNN 부분이 꽤나 많은 overhead를 잡아먹었나 본데 이를 attention으로 대체하여 오직 attention 만을 사용하는 transformer model을 제시한 것이 주요 아이디어라 할 수 있다. (심지어 performance도 기존 seq2seq보다 transformer가 더 좋다는 것이 놀랍다)

Introduction & Background

transformer_1

Model Architecture

encoder & decoder

transformer_2

Attention

transformer_3

Multi-head attention

transformer_4

Applications of attention in Transformer

Transformer 안에서 사용되는 attention은 총 3가지의 종류가 있다. transformer_5 transformer_6

Position-wise Feed-Forward Networks

transformer_7

Padding Mask

transformer_8

전체 Transformer 구조

transformer_9

Positional Encoding

transformer_10

Pros of Self-attention

transformer_11

Training

이 paper에서 training 한 방식이다. transformer_12

Leave a comment