https://arxiv.org/pdf/1706.03762

그 유명한 'Attention Is All You Need'를 (여러 LLM 친구들과 함께..) 읽었다. 대단한 일을 한 건 아니지만 혼자였다면 시작도 못 했을 것이 거의 확실하다. 학교에서 AI 관련 논문을 읽는 스터디에 가입해서 활동 중이다. 유령회원이 될 뻔했지만 어찌어찌 마감일인 오늘 다 읽고 글로 정리까지 해서 한 사람 몫은 했다. 스터디 노션 페이지에 쓴 내용을 여기에 다시 쓴다.
개요 및 요약
핵심 아이디어
이전의 RNN·LSTM처럼 순차적으로 입력을 처리하는 구조를 버리고, 오직 Attention 메커니즘만으로 입력 전체를 한 번에 처리하는 모델을 만들었다는 것이 가장 큰 혁신
주요 특징
- Self-Attention 도입
- 문장의 모든 단어가 서로 어떤 관련이 있는지 스스로 계산
- 멀리 떨어진 단어 간 관계도 쉽게 파악 가능
- 병렬 처리 가능
- RNN처럼 순차적 연산이 필요하지 않아 GPU 병렬 처리 가능
- 획기적인 학습 속도 향상
- Encoder–Decoder 구조
- Encoder: 입력 문장 이해
- Decoder: 원하는 출력(번역 등) 생성
- 각 단계에서 attention이 활용되어 더 깊은 문맥 이해 가능
- 성능 및 속도 혁신
- 기존 최고 모델(LSTM/GRU 기반의 Seq2Seq + Attention, 특히 GNMT 같은 고성능 RNN 모델)보다 더 정확하면서도 더 빠르게 학습
- 이후 BERT, GPT, T5 등 거의 모든 최신 NLP 모델의 기반이 됨
한 줄 요약
RNN 없이도 자연어를 잘 처리할 수 있으며, Attention만으로 더 빠르고 더 좋은 모델을 만들 수 있다는 새로운 시대를 연 논문.
상세 분석
배경 및 기존의 한계 (RNN/LSTM)
- 이 논문 발표 이전, Sequence Modeling(기계 번역 등)의 주류는 RNN이나 LSTM, GRU 기반의 Encoder-Decoder 아키텍처였음.
- RNN은 $t$ 시점의 hidden state $h_t$를 계산하기 위해 반드시 $t-1$ 시점의 $h_{t-1}$ 필요 (논문 2p)
- 문제점 1) 병렬화 불가능
- 데이터 의존성(Dependency) 때문에 GPU를 활용한 병렬 연산(Parallelization)에 제약 발생. Sequence 길이가 길어질수록 학습 속도 저하
- 문제점 2) Long-Range Dependency
- 문장 앞쪽의 정보가 뒤쪽까지 전달되려면 $O(n)$ 의 경로를 거쳐야 하므로, 거리가 멀어질수록 정보 손실(Vanishing Gradient)이 발생하거나 문맥 파악이 어려워짐
Transformer의 핵심 제안: "Recurrence를 제거하자”
- 논문은 Recurrence(순환)와 Convolution(합성곱)을 완전히 배제하고, 오직 Attention 메커니즘만으로 Encoder-Decoder를 구성하는 Transformer 아키텍처를 제안
- Self-Attention (Scaled Dot-Product Attention)
- 입력 시퀀스 내의 각 토큰이 다른 모든 토큰과 어떤 연관성이 있는지 계산하여 가중치 부여
- 수식: $Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V$
- Query(Q), Key(K), Value(V) 벡터를 사용하여 연관성 계산
- Dot-product 값이 커지면 Softmax의 기울기(Gradient)가 소실되는 것을 막기 위해 $\sqrt{d_k}$로 스케일링 처리
- 이점: 시퀀스 내의 어떤 두 위치라도 $O(1)$의 경로로 직접 연결되므로, Global Dependency를 학습하는 데 매우 효율적
- 수식: $Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V$
- 입력 시퀀스 내의 각 토큰이 다른 모든 토큰과 어떤 연관성이 있는지 계산하여 가중치 부여
- Multi-Head Attention
- 단일 Attention만 사용하면 특정 관점의 정보만 학습, 이를 극복하기 위해 $Q, K, V$를 $h$개의 서로 다른 subspace로 투영(Linear Projection)하여 병렬로 Attention을 수행
- 논문에서는 8개의 Head 사용 ($h=8$)
- 이는 모델이 서로 다른 위치(Position)에 있는 서로 다른 표현 공간(Representation Subspaces)의 정보를 동시에 참조할 수 있게 함
- 단일 Attention만 사용하면 특정 관점의 정보만 학습, 이를 극복하기 위해 $Q, K, V$를 $h$개의 서로 다른 subspace로 투영(Linear Projection)하여 병렬로 Attention을 수행
- Positional Encoding
- Recurrence가 없으므로 모델은 입력 토큰의 '순서'나 '위치' 정보 획득 불가(Permutation Invariant). 이를 해결하기 위해 Positional Encoding 벡터를 Input Embedding에 더하는 연산 수행 (논문 6p)
- 학습 가능한 파라미터를 쓰지 않고, 사인(Sine)과 코사인(Cosine) 함수를 이용한 고정된 값 사용
- 이는 학습 때 보지 못한 더 긴 시퀀스에 대해서도 모델이 외삽(Extrapolate)할 수 있게 하기 위함임
- 외삽: 주어진 데이터의 범위를 벗어나, 그 범위를 넘어선 값을 추정하는 과정
- Recurrence가 없으므로 모델은 입력 토큰의 '순서'나 '위치' 정보 획득 불가(Permutation Invariant). 이를 해결하기 위해 Positional Encoding 벡터를 Input Embedding에 더하는 연산 수행 (논문 6p)
복잡도 및 효율성 비교 (Complexity Analysis)
논문(6p)에서는 Layer 타입별 효율성을 다음과 같이 비교 분석 수행
| Layer Type | Complexity per Layer | Sequential Operations | Maximum Path Length |
| Self-Attention | $O(n^2 \cdot d)$ | $O(1)$ | $O(1)$ |
| Recurrent | $O(n \cdot d^2)$ | $O(n)$ | $O(n)$ |
| Convolutional | $O(k \cdot n \cdot d^2)$ | $O(1)$ | $O(log_k(n))$ |
- Sequential Operations: RNN은 $O(n)$이지만 Self-Attention은 $O(1)$. 즉, 시퀀스 길이와 상관없이 한 번에 행렬 연산으로 처리가 가능하여 병렬화 효율 극대화
- Max Path Length: RNN은 $O(n)$이지만 Self-Attention은 $O(1)$. 이로 인해 장기 의존성(Long-Range Dependency) 학습에 결정적인 차이 발생
- Complexity per Layer(계산 복잡도): 단, $n$(시퀀스 길이)이 $d$(표현 차원)보다 작을 경우에만 Self-Attention이 더 유리
성과 (Results)
- WMT 2014 ‘영어-독일어’ 번역: 28.4 BLEU를 기록하며 기존 SOTA(앙상블 모델 포함)를 2 BLEU 이상 경신
- BLEU(Bilingual Evaluation Understudy): 기계 번역 시스템의 성능을 평가하는 지표로, 기계가 생성한 텍스트가 사람이 만든 참조 번역과 얼마나 유사한지 측정
- Training Cost: 기존 모델 대비 훈련 비용(FLOPs)이 획기적으로 감소. ‘영어-프랑스어’ 모델의 경우 기존 SOTA 모델 대비 1/4 수준의 비용만 소요
- FLOPs: 컴퓨터의 성능을 나타내는 단위로, '초당 부동소수점 연산 횟수(Floating Point Operations Per Second)'를 의미
요약
- NLP 아키텍처의 패러다임을 "순차적 처리(Sequential Processing)"에서 "병렬적 전역 처리(Parallel Global Processing)"로 전환시킨 논문
- $t-1$의 계산이 끝날 때까지 기다릴 필요 없이, 행렬 연산을 통해 문장 전체의 관계를 한 번에($O(1)$) 파악함으로써 학습 속도와 성능(정확도) 두 마리 토끼를 모두 잡은 기념비적인 연구로 평가
TODO (공부가 더 필요한 부분)
- Scaled Dot-Product Attention 수식에 대한 완벽한 이해
- Recurrence, Convolution의 구체적인 원리 및 동작 방식
- Multi-Head Attention 관련 선형대수 관련 지식(subspace, Linear Projection 등)
ChatGPT와 Gemini의 도움을 많이 받았다. 쌩유. 끝.
반응형
사업자 정보 표시
가리봉랩스(Garibong Labs) | 함동기 | 87, Jukjeon-ro | 사업자 등록번호 : 604-05-36402 | TEL : 010-5130-6483 | Mail : hamjoon@gmail.com | 통신판매신고번호 : 2026-용인수지-0037호 | 사이버몰의 이용약관 바로가기
'일상 > 대학원 생활' 카테고리의 다른 글
| [고대 대학원] SW·AI융합대학원, 첫학기(2025년 후반기) 간략 회고 (0) | 2025.12.21 |
|---|---|
| [고대 대학원] 학교 근처 수영장, 동대문종합사회복지관 (0) | 2025.12.02 |
| [고대 대학원] 뜻밖의 여정, 고려대학교 의과대학 탐방 (0) | 2025.11.21 |
| [고대 대학원] 2025 인문학 특강 "전구로부터 트랜지스터의 탄생" (0) | 2025.11.12 |
| [대학원 생활] 개발 관련 (무료 또는 할인) 학생 플랜 리스트 (0) | 2025.11.08 |