그 유명한 'Attention Is All You Need'를 (여러 LLM 친구들과 함께..) 읽었다. 대단한 일을 한 건 아니지만 혼자였다면 시작도 못 했을 것이 거의 확실하다. 학교에서 AI 관련 논문을 읽는 스터디에 가입해서 활동 중이다. 유령회원이 될 뻔했지만 어찌어찌 마감일인 오늘 다 읽고 글로 정리까지 해서 한 사람 몫은 했다. 스터디 노션 페이지에 쓴 내용을 여기에 다시 쓴다.

개요 및 요약

핵심 아이디어

이전의 RNN·LSTM처럼 순차적으로 입력을 처리하는 구조를 버리고, 오직 Attention 메커니즘만으로 입력 전체를 한 번에 처리하는 모델을 만들었다는 것이 가장 큰 혁신

주요 특징

Self-Attention 도입
- 문장의 모든 단어가 서로 어떤 관련이 있는지 스스로 계산
- 멀리 떨어진 단어 간 관계도 쉽게 파악 가능
병렬 처리 가능
- RNN처럼 순차적 연산이 필요하지 않아 GPU 병렬 처리 가능
- 획기적인 학습 속도 향상
Encoder–Decoder 구조
- Encoder: 입력 문장 이해
- Decoder: 원하는 출력(번역 등) 생성
- 각 단계에서 attention이 활용되어 더 깊은 문맥 이해 가능
성능 및 속도 혁신
- 기존 최고 모델(LSTM/GRU 기반의 Seq2Seq + Attention, 특히 GNMT 같은 고성능 RNN 모델)보다 더 정확하면서도 더 빠르게 학습
- 이후 BERT, GPT, T5 등 거의 모든 최신 NLP 모델의 기반이 됨

한 줄 요약

RNN 없이도 자연어를 잘 처리할 수 있으며, Attention만으로 더 빠르고 더 좋은 모델을 만들 수 있다는 새로운 시대를 연 논문.

상세 분석

배경 및 기존의 한계 (RNN/LSTM)

이 논문 발표 이전, Sequence Modeling(기계 번역 등)의 주류는 RNN이나 LSTM, GRU 기반의 Encoder-Decoder 아키텍처였음.
- RNN은 $t$ 시점의 hidden state $h_t$를 계산하기 위해 반드시 $t-1$ 시점의 $h_{t-1}$ 필요 (논문 2p)
- 문제점 1) 병렬화 불가능
  - 데이터 의존성(Dependency) 때문에 GPU를 활용한 병렬 연산(Parallelization)에 제약 발생. Sequence 길이가 길어질수록 학습 속도 저하
- 문제점 2) Long-Range Dependency
  - 문장 앞쪽의 정보가 뒤쪽까지 전달되려면 $O(n)$ 의 경로를 거쳐야 하므로, 거리가 멀어질수록 정보 손실(Vanishing Gradient)이 발생하거나 문맥 파악이 어려워짐

Transformer의 핵심 제안: "Recurrence를 제거하자”

논문은 Recurrence(순환)와 Convolution(합성곱)을 완전히 배제하고, 오직 Attention 메커니즘만으로 Encoder-Decoder를 구성하는 Transformer 아키텍처를 제안
Self-Attention (Scaled Dot-Product Attention)
- 입력 시퀀스 내의 각 토큰이 다른 모든 토큰과 어떤 연관성이 있는지 계산하여 가중치 부여
  - 수식: $Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V$
    - Query(Q), Key(K), Value(V) 벡터를 사용하여 연관성 계산
    - Dot-product 값이 커지면 Softmax의 기울기(Gradient)가 소실되는 것을 막기 위해 $\sqrt{d_k}$로 스케일링 처리
  - 이점: 시퀀스 내의 어떤 두 위치라도 $O(1)$의 경로로 직접 연결되므로, Global Dependency를 학습하는 데 매우 효율적
Multi-Head Attention
- 단일 Attention만 사용하면 특정 관점의 정보만 학습, 이를 극복하기 위해 $Q, K, V$를 $h$개의 서로 다른 subspace로 투영(Linear Projection)하여 병렬로 Attention을 수행
  - 논문에서는 8개의 Head 사용 ($h=8$)
  - 이는 모델이 서로 다른 위치(Position)에 있는 서로 다른 표현 공간(Representation Subspaces)의 정보를 동시에 참조할 수 있게 함
Positional Encoding
- Recurrence가 없으므로 모델은 입력 토큰의 '순서'나 '위치' 정보 획득 불가(Permutation Invariant). 이를 해결하기 위해 Positional Encoding 벡터를 Input Embedding에 더하는 연산 수행 (논문 6p)
  - 학습 가능한 파라미터를 쓰지 않고, 사인(Sine)과 코사인(Cosine) 함수를 이용한 고정된 값 사용
  - 이는 학습 때 보지 못한 더 긴 시퀀스에 대해서도 모델이 외삽(Extrapolate)할 수 있게 하기 위함임
    - 외삽: 주어진 데이터의 범위를 벗어나, 그 범위를 넘어선 값을 추정하는 과정

복잡도 및 효율성 비교 (Complexity Analysis)

논문(6p)에서는 Layer 타입별 효율성을 다음과 같이 비교 분석 수행

Layer Type	Complexity per Layer	Sequential Operations	Maximum Path Length
Self-Attention	$O(n^2 \cdot d)$	$O(1)$	$O(1)$
Recurrent	$O(n \cdot d^2)$	$O(n)$	$O(n)$
Convolutional	$O(k \cdot n \cdot d^2)$	$O(1)$	$O(log_k(n))$

Sequential Operations: RNN은 $O(n)$이지만 Self-Attention은 $O(1)$. 즉, 시퀀스 길이와 상관없이 한 번에 행렬 연산으로 처리가 가능하여 병렬화 효율 극대화
Max Path Length: RNN은 $O(n)$이지만 Self-Attention은 $O(1)$. 이로 인해 장기 의존성(Long-Range Dependency) 학습에 결정적인 차이 발생
Complexity per Layer(계산 복잡도): 단, $n$(시퀀스 길이)이 $d$(표현 차원)보다 작을 경우에만 Self-Attention이 더 유리

성과 (Results)

WMT 2014 ‘영어-독일어’ 번역: 28.4 BLEU를 기록하며 기존 SOTA(앙상블 모델 포함)를 2 BLEU 이상 경신
- BLEU(Bilingual Evaluation Understudy): 기계 번역 시스템의 성능을 평가하는 지표로, 기계가 생성한 텍스트가 사람이 만든 참조 번역과 얼마나 유사한지 측정
Training Cost: 기존 모델 대비 훈련 비용(FLOPs)이 획기적으로 감소. ‘영어-프랑스어’ 모델의 경우 기존 SOTA 모델 대비 1/4 수준의 비용만 소요
- FLOPs: 컴퓨터의 성능을 나타내는 단위로, '초당 부동소수점 연산 횟수(Floating Point Operations Per Second)'를 의미

요약

NLP 아키텍처의 패러다임을 "순차적 처리(Sequential Processing)"에서 "병렬적 전역 처리(Parallel Global Processing)"로 전환시킨 논문
$t-1$의 계산이 끝날 때까지 기다릴 필요 없이, 행렬 연산을 통해 문장 전체의 관계를 한 번에($O(1)$) 파악함으로써 학습 속도와 성능(정확도) 두 마리 토끼를 모두 잡은 기념비적인 연구로 평가

TODO (공부가 더 필요한 부분)

Scaled Dot-Product Attention 수식에 대한 완벽한 이해
Recurrence, Convolution의 구체적인 원리 및 동작 방식
Multi-Head Attention 관련 선형대수 관련 지식(subspace, Linear Projection 등)

ChatGPT와 Gemini의 도움을 많이 받았다. 쌩유. 끝.

저작자표시 변경금지 (새창열림)

사업자 정보 표시

'일상 > 대학원 생활' 카테고리의 다른 글

[고대 대학원] SW·AI융합대학원, 첫학기(2025년 후반기) 간략 회고 (0)	2025.12.21
[고대 대학원] 학교 근처 수영장, 동대문종합사회복지관 (0)	2025.12.02
[고대 대학원] 뜻밖의 여정, 고려대학교 의과대학 탐방 (0)	2025.11.21
[고대 대학원] 2025 인문학 특강 "전구로부터 트랜지스터의 탄생" (0)	2025.11.12
[대학원 생활] 개발 관련 (무료 또는 할인) 학생 플랜 리스트 (0)	2025.11.08

가리봉랩스(Garibong Labs)의 개발 노트

[논문 스터디] Attention Is All You Need

개요 및 요약

핵심 아이디어

주요 특징

한 줄 요약

상세 분석

배경 및 기존의 한계 (RNN/LSTM)

Transformer의 핵심 제안: "Recurrence를 제거하자”

복잡도 및 효율성 비교 (Complexity Analysis)

성과 (Results)

요약

TODO (공부가 더 필요한 부분)

'일상 > 대학원 생활' 카테고리의 다른 글

티스토리툴바

[논문 스터디] Attention Is All You Need

개요 및 요약

핵심 아이디어

주요 특징

한 줄 요약

상세 분석

배경 및 기존의 한계 (RNN/LSTM)

Transformer의 핵심 제안: "Recurrence를 제거하자”

복잡도 및 효율성 비교 (Complexity Analysis)

성과 (Results)

요약

TODO (공부가 더 필요한 부분)

'일상 > 대학원 생활' 카테고리의 다른 글

관련글

티스토리툴바