대형 언어 모델(LLM)의 진화: SFT, RLHF, DPO, 그리고 ORPO까지
🚀 대형 언어 모델(LLM)의 진화: SFT, RLHF, DPO, 그리고 ORPO까지AI 기술이 눈부시게 발전하면서, 인간처럼 말하고 이해하는 대형 언어 모델(LLM)이 일상 속으로 깊숙이 들어오고 있습니다. 그러나 이런 성능의 이면에는 수많은 연구자와 엔지니어들이 개발한 미세조정(Fine-Tuning) 기법들이 자리하고 있습니다.이번 글에서는 대표적인 LLM 훈련 기술인 SFT, RLHF, DPO, ORPO를 개념부터 기술적 특징, 장단점까지 심층적으로 정리해보려 합니다. 🔧 1. SFT (Supervised Fine-Tuning)지도 학습 기반 미세조정(SFT)은 가장 전통적인 방식으로, 모델이 주어진 입력에 대해 특정한 정답을 출력하도록 학습시키는 방법입니다. 예를 들어, 질문에 적절한 답변을 ..
2025. 6. 19.