본문 바로가기

개발/AI15

[Day15] LLM 스터디 1기 - vLLM 서빙 한 권으로 끝내는 실전 LLM 파인튜닝 - 강다솔 지음/위키북스">한 권으로 끝내는 실전 LLM 파인튜닝 - 강다솔 지음/위키북스05. vLLM을 활용한 서빙드디어 마지막 15일 차다. 학습된 모델을 실제 서비스에 적용하는 과정을 실습한다. 앞에서 LLM을 이용해서 문장을 생성할 때 시간이 꽤 오래 걸렸다. 실제 서비스 단계에서는 사용자 경험을 고려해야 하는데 LLM의 추론 속도가 큰 영향을 미친다. vLLM은 이러한 추론 속도 문제를 해결하기 위한 도구로, 페이지드 어텐션(Paged Attention)이라는 기술을 사용한다. 책에 따로 언급되지 않았지만 관련 논문은 https://arxiv.org/pdf/2309.06180로 보인다.페이지드 어텐션 원리페이지드 어텐션 시스템은 'Logical KV Ca.. 2025. 1. 30.
[Day14] LLM 스터디 1기 - 효율적인 파라미터 튜닝(QLoRA 튜닝 실습) 한 권으로 끝내는 실전 LLM 파인튜닝 - 강다솔 지음/위키북스">한 권으로 끝내는 실전 LLM 파인튜닝 - 강다솔 지음/위키북스04. 효율적인 파라미터 튜닝 기법이번 14일 차는 책에 오타가 몇 개 있다. 실습을 진행하면서 해당 부분에 명시해 놓겠다.파라미터 설정args = TrainingArguments( output_dir="code-llama3-8B-text-to-sql", num_train_epochs=1, # max_steps=100, per_device_train_batch_size=1, gradient_accumulation_steps=2, gradient_.. 2025. 1. 29.
[Day13] LLM 스터디 1기 - 효율적인 파라미터 튜닝(양자화 & QLoRA) 한 권으로 끝내는 실전 LLM 파인튜닝 - 강다솔 지음/위키북스04. 효율적인 파라미터 튜닝 기법 (PEFT)70B Llama 3 모델을 16bits로 로드한다면 무려 140GB VRAM이 필요하다고 한다. 최근 연구는 대규모 모델을 더 적은 VRAM을 사용해 로드할 수 있는 방법에 초점을 맞추고 있는데 주요 기술 중 하나가 바로 양자화(quantization)이다.양자화의 이해딥러닝 모델을 사용하다 보면 FP32, BF16, FP16 같은 torch.dtype 설정을 하게 되는데 이는 모두 부동소수점 방식을 사용해 숫자를 표현하는 데이터 타입이다. 아래 이미지는 FP32(Float 32-bit)와 FP16(Float 16-bit)로 원주율을 표현하는 예시다.가수(fraction/mantissa) 부분 .. 2025. 1. 27.
[Day12] LLM 스터디 1기 - 효율적인 파라미터 튜닝(LoRA) #2 한 권으로 끝내는 실전 LLM 파인튜닝 - 강다솔 지음/위키북스04. 효율적인 파라미터 튜닝 기법 (PEFT)지난 11일 차에 학습 파라미터 설정까지 완료했고 오늘은 이를 바탕으로 모델 학습에 들어간다.LoRA 적용 및 모델 학습/평가trainer = SFTTrainer( model=model, args=args, train_dataset=dataset, max_seq_length=512, peft_config=peft_config, tokenizer=tokenizer, packing=True,)지난번 전체 파인튜닝과 동일하게 파인튜닝을 쉽게 수행할 수 있도록 해주는 도구인 SFTTrainer 클래스를 사용해서 훈련 과정을 구성한다. 선택한 모델, 토크나이저, 학습에.. 2025. 1. 23.
[Day11] LLM 스터디 1기 - 효율적인 파라미터 튜닝(LoRA) #1 한 권으로 끝내는 실전 LLM 파인튜닝 - 강다솔 지음/위키북스04. 효율적인 파라미터 튜닝 기법 (PEFT)지난 10일 차까지 해서 '전체 파라미터 파인튜닝'을 마쳤고, 이제 일부 파라미터만 수정하는 PEFT(Parameter-Efficient Fine -Tuning)에 대해 알아보고 실습을 진행한다.LoRA 이론 및 실습모델은 구글의 Gemma2-9B-it를 사용한다. 앞에서 전체 파인튜닝을 진행했던 Gemma2-2B-it 보다 크고 강력한 모델로 주로 다양한 자연어 처리 작업에 활용된다고 한다. 이 모델을 LoRa 기법으로 파인튜닝해 '심리 상담에 특화된 챗봇'을 만드는 과정을 실습한다. LoRa는 사전 학습된 모델의 구조를 그대로 유지하면서 필요한 만큼만 파라미터를 효율적으로 수정하는 방법이다.위.. 2025. 1. 22.
[Day10] LLM 스터디 1기 - 다중 GPU Llama3 파인튜닝 #1 한 권으로 끝내는 실전 LLM 파인튜닝 - 강다솔 지음/위키북스10일 차는 이전 Gemma와 달리 파인튜닝 절차를 한 회 차에 모두 진행해서 내용이 좀 많다. 참고로 허깅페이스의 Llama 모델에 접근하려면 미리 요청해서 승인을 받아야 한다. 대략 10분 이내에 승인이 나는 듯하다.03. 전체 파인튜닝3.5 다중 GPU를 활용한 Llama3.1-8B-instruct 파인튜닝지난 시간까지 단일 GPU를 이용해서 Gemma-2B-it 모델을 파인튜닝해 봤다. 이번(10일 차)에는 더 큰 규모의 모델인 Llama3.1-8B-instruct 모델을 대상으로 여러 대의 GPU를 활용한 파인튜닝을 진행한다.런팟 환경 설정Llama3.1-8B-instruct 모델을 전체 파인튜닝하며 주피터 노트북 환경이 아닌 터미.. 2025. 1. 20.
반응형