최신글 [Day15] LLM 스터디 1기 - vLLM 서빙 한 권으로 끝내는 실전 LLM 파인튜닝 - 강다솔 지음/위키북스">한 권으로 끝내는 실전 LLM 파인튜닝 - 강다솔 지음/위키북스05. vLLM을 활용한 서빙드디어 마지막 15일 차다. 학습된 모델을 실제 서비스에 적용하는 과정을 실습한다. 앞에서 LLM을 이용해서 문장을 생성할 때 시간이 꽤 오래 걸렸다. 실제 서비스 단계에서는 사용자 경험을 고려해야 하는데 LLM의 추론 속도가 큰 영향을 미친다. vLLM은 이러한 추론 속도 문제를 해결하기 위한 도구로, 페이지드 어텐션(Paged Attention)이라는 기술을 사용한다. 책에 따로 언급되지 않았지만 관련 논문은 https://arxiv.org/pdf/2309.06180로 보인다.페이지드 어텐션 원리페이지드 어텐션 시스템은 'Logical KV Ca.. 2025.01.30 [Day14] LLM 스터디 1기 - 효율적인 파라미터 튜닝(QLoRA 튜닝 실습) 한 권으로 끝내는 실전 LLM 파인튜닝 - 강다솔 지음/위키북스">한 권으로 끝내는 실전 LLM 파인튜닝 - 강다솔 지음/위키북스04. 효율적인 파라미터 튜닝 기법이번 14일 차는 책에 오타가 몇 개 있다. 실습을 진행하면서 해당 부분에 명시해 놓겠다.파라미터 설정args = TrainingArguments( output_dir="code-llama3-8B-text-to-sql", num_train_epochs=1, # max_steps=100, per_device_train_batch_size=1, gradient_accumulation_steps=2, gradient_.. 2025.01.29 [Day13] LLM 스터디 1기 - 효율적인 파라미터 튜닝(양자화 & QLoRA) 한 권으로 끝내는 실전 LLM 파인튜닝 - 강다솔 지음/위키북스04. 효율적인 파라미터 튜닝 기법 (PEFT)70B Llama 3 모델을 16bits로 로드한다면 무려 140GB VRAM이 필요하다고 한다. 최근 연구는 대규모 모델을 더 적은 VRAM을 사용해 로드할 수 있는 방법에 초점을 맞추고 있는데 주요 기술 중 하나가 바로 양자화(quantization)이다.양자화의 이해딥러닝 모델을 사용하다 보면 FP32, BF16, FP16 같은 torch.dtype 설정을 하게 되는데 이는 모두 부동소수점 방식을 사용해 숫자를 표현하는 데이터 타입이다. 아래 이미지는 FP32(Float 32-bit)와 FP16(Float 16-bit)로 원주율을 표현하는 예시다.가수(fraction/mantissa) 부분 .. 2025.01.27 책 리뷰 [책 리뷰] 고딕 × 호러 × 제주 more [책 리뷰] 나의 이상하고 평범한 부동산 가족 more [책 리뷰] 파도수집노트- a bodyboarder’s notebook more [책 리뷰] 천문학자는 별을 보지 않는다 - 심채경 more [책 리뷰] 지혜롭게 투자한다는 것 - 버턴 말킬, 찰스 엘리스 more [책 리뷰] 청약 맞춤 수업 - 박지민(월용이) more 개발 [Day15] LLM 스터디 1기 - vLLM 서빙 한 권으로 끝내는 실전 LLM 파인튜닝 - 강다솔 지음/위키북스">한 권으로 끝내는 실전 LLM 파인튜닝 - 강다솔 지음/위키북스05. vLLM을 활용한 서빙드디어 마지막 15일 차다. 학습된 모델을 실제 서비스에 적용하는 과정을 실습한다. 앞에서 LLM을 이용해서 문장을 생성할 때 시간이 꽤 오래 걸렸다. 실제 서비스 단계에서는 사용자 경험을 고려해야 하는데 LLM의 추론 속도가 큰 영향을 미친다. vLLM은 이러한 추론 속도 문제를 해결하기 위한 도구로, 페이지드 어텐션(Paged Attention)이라는 기술을 사용한다. 책에 따로 언급되지 않았지만 관련 논문은 https://arxiv.org/pdf/2309.06180로 보인다.페이지드 어텐션 원리페이지드 어텐션 시스템은 'Logical KV Ca.. 댓글 2 2025.01.30 [Day14] LLM 스터디 1기 - 효율적인 파라미터 튜닝(QLoRA 튜닝 실습) 한 권으로 끝내는 실전 LLM 파인튜닝 - 강다솔 지음/위키북스">한 권으로 끝내는 실전 LLM 파인튜닝 - 강다솔 지음/위키북스04. 효율적인 파라미터 튜닝 기법이번 14일 차는 책에 오타가 몇 개 있다. 실습을 진행하면서 해당 부분에 명시해 놓겠다.파라미터 설정args = TrainingArguments( output_dir="code-llama3-8B-text-to-sql", num_train_epochs=1, # max_steps=100, per_device_train_batch_size=1, gradient_accumulation_steps=2, gradient_.. 댓글 0 2025.01.29 [Day13] LLM 스터디 1기 - 효율적인 파라미터 튜닝(양자화 & QLoRA) 한 권으로 끝내는 실전 LLM 파인튜닝 - 강다솔 지음/위키북스04. 효율적인 파라미터 튜닝 기법 (PEFT)70B Llama 3 모델을 16bits로 로드한다면 무려 140GB VRAM이 필요하다고 한다. 최근 연구는 대규모 모델을 더 적은 VRAM을 사용해 로드할 수 있는 방법에 초점을 맞추고 있는데 주요 기술 중 하나가 바로 양자화(quantization)이다.양자화의 이해딥러닝 모델을 사용하다 보면 FP32, BF16, FP16 같은 torch.dtype 설정을 하게 되는데 이는 모두 부동소수점 방식을 사용해 숫자를 표현하는 데이터 타입이다. 아래 이미지는 FP32(Float 32-bit)와 FP16(Float 16-bit)로 원주율을 표현하는 예시다.가수(fraction/mantissa) 부분 .. 댓글 0 2025.01.27 부동산 임장 [임장 후기] 서울 용산구, 서빙고동 신동아아파트 [임장 후기] 서울 은평구, 녹번역 주변 아파트 단지 (2편) [임장 후기] 서울 은평구, 녹번역 주변 아파트 단지 (1편) [임장 후기] 성수전략정비구역 2지구, 한강한신아파트 [임장 후기] 노원구 중계동, 을지초중교 주변 아파트 단지 투자 일지 [공모주 투자] 2022년 3~6월 결산 (수익금 및 수익률) [미국 주식] 인텔(INTC) 재무제표 분석 [공모주 투자] 2022년 1~2월 결산 (수익금 및 수익률) [리밸런싱] NH금현물 계좌, 절반 매도 [국내 주식] 2021년 공모주 투자, 최종 수익 및 수익률 매일경제 리뷰 [매경] 2024.03.07(목) - 尹 "집단행동 엄정대응, 의료개혁 완수" more [매경] 2024.03.06(수) - "돌봄 절벽…외국인 최저임금 차등화를" more [매경] 2024.03.05(화) - 외국인, K증시 '반·금·차'에 꽂혔다 more [매경] 2024.03.04(월) - AI칩 밀린 韓, DPU로 역전 노린다 more [매경] 2024.02.28(수) - 12단 HBM 치고나간 삼성…AI칩 승부수 more [매경] 2024.02.27(화) - 갈길 먼 밸류업, 맥빠진 증시 more 반응형