한 권으로 끝내는 실전 LLM 파인튜닝 - 강다솔 지음/위키북스 |
'한 권으로 끝내는 실전 LLM 파인튜닝' 도서를 기반으로 하는 온라인 스터디 모임에 참석하게 됐다. 앞으로 3주 동안 15일(주말 제외)에 걸쳐 진행된다. 오늘이 1일 차.
01 NLP의 과거와 오늘
1장은 자연어 처리(NLP: Natural Language Processing)와 인공지능의 발전을 과정을 단계적으로 다루고 있다. LLM에 지식이 전무한데도 옛날 이야기를 듣는 느낌이라 딱히 어려운 부분은 없었다. AI와 NLP의 역사는 1930년대부터 시작됐는데 1957년에 프랭크 로젠블렛이 개발한 '퍼셉트론(Perceptron)'이 현재 구현된 인공신경망의 핵심이라고 한다. 퍼셉트론 시스템은 서로 다른 두 유형의 자극을 스스로 구분할 수 있는 '선형적 분리' 능력을 갖는다. 이는 XOR 같은 비선형적 분류 문제를 해결하지 못한다는 퍼셉트론의 한계이기도 하다.
1986년 데이비드 루멜하트, 제프리 힌튼, 로널드 윌리엄스는 논문을 통해 퍼셉트론의 한계를 극복하고 비선형 문제를 해결할 수 있는 '역전파(Backpropagation) 알고리즘'을 제시했다.
먼저 신경망이 입력을 받아 예측하고, 이 예측과 실제 정답 사이의 차이(오차)를 계산한다. 이 오차를 출력층에서 시작해 입력층 방향으로 거꾸로 전파하면서 각 층의 가중치를 조장하는 방식이다. 비선형 함수의 미분값(df)이 이 과정에서 핵심적인 역할을 하는데 시그모이드 함수와 같은 비선형 함수는 항상 0이 아닌 미분값을 가지므로 이 값을 통해 오차가 네트워크의 깊은 층까지 역전파될 수 있다고 한다. 미분이라니.. 다시 한번 수학의 벽에 부딪힌 느낌이다. 일단 넘어가고 책 부록에 실린 '역전파 수학적 리뷰'를 참고해서 나중에 다시 봐야겠다.
역전파 알고리즘 이후, 인공지능과 머신러닝 분야는 급속도로 발전하기 시작했다. 2015년에는 어텐션(Attention) 메커니즘이 소개됐는데 이는 2017년 그 유명한 트랜스포머(Transformer) 모델의 핵심 아이디어가 됐다고 한다. 이러한 발전들은 2018년 BERT, GPT와 같은 사전 훈련된 언어 모델의 등장으로 이어졌다.
02. GPT
2장의 앞부분까지가 오늘(1일 차) 분량이다. 런팟(RunPod)을 설치하고, 제공된 간단한 모델이 배치 시퀀스를 처리하며 텍스트 구조와 언어 패턴을 학습하는 과정을 실습했다. 결과 스크린샷으로 대체한다. 내일은 2장의 나머지 부분을 공부할 예정이다.
끝.
'개발 > AI' 카테고리의 다른 글
[Day6] LLM 스터디 1기 - GPU 병렬화 기법 (0) | 2025.01.16 |
---|---|
[Day5] LLM 스터디 1기 - GPT, Gemma, Llama3 모델 특징 비교 (1) | 2025.01.15 |
[Day4] LLM 스터디 1기 - 파인튜닝 개념 (1) | 2025.01.11 |
[Day3] LLM 스터디 1기 - 멀티헤드 어텐션 & 피드포워드 (1) | 2025.01.10 |
[Day2] LLM 스터디 1기 - 언어 모델 구조 및 셀프 어텐션 메커니즘 이해 (3) | 2025.01.05 |