Doheon Kwon

Doheon Kwon

Doheon Kwon’s activities related to EE and programming.

논문리뷰 (paper review); Attention Is All You Need

August 2, 2023

구글에서 2017 NIPS 에서 발표했고 당시 엄청난 센세이션을 일으켜 AI의 흐름을 바꿨다는 평을 받은 논문, Attention is all you need 이다. 기존에 seq2seq (sequence to sequence) model에서 사용되던 RNN 부분을 self-attention으로 대체하여 performance를 높였다는 논문이다. 아무래도 잘은 모르겠지만 RNN 부분이 꽤나 많은 overhead를 잡아먹었나 본데 이를 attention으로 대체하여 오직 attention 만을 사용하는 transformer model을 제시한 것이 주요 아이디어라 할 수 있다. (심지어 performance도 기존 seq2seq보다 transformer가 더 좋다는 것이 놀랍다)

Introduction & Background

transformer_1

Model Architecture

encoder & decoder

transformer_2

Attention

transformer_3

Multi-head attention

transformer_4

Applications of attention in Transformer

Transformer 안에서 사용되는 attention은 총 3가지의 종류가 있다. transformer_5 transformer_6

Position-wise Feed-Forward Networks

transformer_7

Padding Mask

transformer_8

전체 Transformer 구조

transformer_9

Positional Encoding

transformer_10

Pros of Self-attention

transformer_11

Training

이 paper에서 training 한 방식이다. transformer_12

Leave a comment

You may also enjoy

Baekjoon(백준) 11499번 - Path

September 4, 2023

백준 사이트의 11499번. 문제 제목 : Path 백준 11499

논문리뷰 (paper review); Simba : Scaling Deep Learning Inference with Multi-chip-module based Architecture

August 2, 2023

엔비디아에서 만든 Simba 라는 multi-chip 딥러닝 가속 아키텍쳐에 관한 논문이다. Multi-chip과 AI 가속기의 개념이 결합되어 있다는 점이 특징이다. 논문 읽으면서 정리한 노트를 사진으로 첨부했다. Introduction (이론적 배경 및 problem sugge...

논문리뷰 (paper review); An Efficient Design Framework for 2x2 CNN Accelerator Chiplet Cluster with SerDes Interconnects

August 2, 2023

chiplet과 SerDes interconnect를 활용한 CNN 가속기를 만들었다는 논문이다. chiplet 구조나 더 빠른 CNN 가속을 위한 특별한 아이디어는 없고 job scheduling을 좀 더 효율적으로 해서 2 by 2 chiplet에 잘 분배할 수 있는 알고리즘을...

About Chiplet vs. Multi-chip difference

August 2, 2023

Chiplet과 Multi-chip의 차이점이 무엇인가? 에 관한 의문이 들어서 조사를 해보았다. Chiplet과 Multi-chip의 주요 차이점은 다음과 같다.