거대언어모델 정합성 높이는 AI 학습 신기술 개발
세계 최고 AI 학회서 상위 2.6% 논문 선정
거대언어모델 실용성 및 안전성 향상 기대
(왼쪽부터) 서울대학교 전기정보공학부 이정우 교수, 조태현 연구원, 주석훈 연구원, 한승엽 연구원
서울대학교 공과대학(이하 서울공대)은 전기정보공학부 이정우 교수 연구팀이 챗지피티(ChatGPT)와 같은 거대언어모델에 적용 가능한 강화학습 신기술을 개발했다고 밝혔다. 해당 기술을 제안한 논문은 인공지능(AI) 이론 분야 국제학술대회인 ‘ICML 2025(국제기계학습학회)’에서 전체 제출작 중 상위 2.6%에 해당하는 ‘스포트라이트’ 논문으로 선정됐다.
이정우 교수가 창업한 AI 자동학습 플랫폼 기업 ‘호두에이아이(HodooAI)’는 지난 달 13일부터 20일까지 캐나다 밴쿠버에서 열린 ICML 2025에서 ‘Policy-labeled Preference Learning: Is Preference Enough for RLHF’라는 제목의 논문을 발표했다. 이번 논문이 AI 분야 주요 학회에서 스포트라이트 논문으로 선정된 것은 서울대 CML(Cognitive Machine Learning Lab) 연구실과 호두에이아이의 자연어 처리 관련 AI 기술력이 국제적으로 주목받았다는 점에서 의미 있는 사례로 평가된다.
ChatGPT와 같은 거대언어모델이 사용자와 소통할 때, 인간의 가치에 정합하는 자연스러운 문장을 생성하도록 유도하기 위해 ‘인간 피드백 기반 강화학습(Reinforcement Learning from Human Feedback, RLHF)’이라는 훈련법이 사용되고 있다. RLHF는 ‘보상함수를 단순히 최대화’하는 방식으로 AI를 훈련시켜, 사람이 선호하는 답변을 우선적으로 생성하도록 유도하는 AI 정합성 기술이다.
최근에는 대부분의 언어모델에서 편향 제거 또는 부적절한 정보 제공 방지를 위해 RLHF가 기본적으로 활용되고 있다. 그러나 이 방식은 보상함수 중심의 단순한 학습 구조로 인해, 사용자가 선호하지 않는 두 문장의 우열을 억지로 비교해야 하는 상황이 학습에 반영될 수 있으며, 이는 언어 모델의 성능에 부정적인 영향을 미칠 수 있다는 한계가 지적돼 왔다.
이에 이정우 교수 연구팀은 AI 모델이 답변을 생성할 때 정합성 수준과 무관하게 단순한 선호도만 반영하는 기존 RLHF 방식의 한계를 보완하고자, 충분히 신뢰할 수 있는 AI 모델의 응답에만 선호도를 반영하는 새로운 강화학습 기술인 ‘정책 레이블 기반 선호 학습(Policy-labeled Preference Learning, PPL)’을 제안했다.
연구팀은 PPL 개발 과정에서 RLHF의 치명적 한계, 즉 정합성이 낮은 두 문장을 비교하는 비효율적인 학습 문제를 개선하는 방향으로 접근했다. 그 결과, 문장을 생성한 AI 모델의 수준 정보를 학습에 반영해 보다 정교한 최적화를 수행할 수 있는 PPL 방식을 개발했다.
관계자에 따르면, 해당 기술이 보편화될 경우 거대언어모델의 정합성 학습 성공률을 2배 이상 향상시켜 일반 사용자들이 보다 안정적으로 실무에 활용할 수 있는 기반이 마련될 것으로 기대된다. 또한, 이 특허 기술은 향후 호두에이아이의 AI 플랫폼에서 ‘정합성 개선 거대언어모델’을 생성하는 핵심 기술로 사용될 예정이다.
논문의 제1저자인 서울대 전기정보공학부 조태현 연구원은 “이번에 선보인 기술이 앞으로 AI 정합성 관련 국내 기술력을 세계적 수준으로 끌어올리는 데 큰 역할을 할 뿐 아니라, 향후 거대언어모델의 실용성과 안전성도 높일 수 있으리라 기대한다”며 “앞으로 강화학습의 자연어처리 연구에 집중할 계획”이라고 밝혔다.
연구를 지도한 이정우 교수는 “최고 권위의 AI 학회인 ICML 2025에서 상위 2.6% 논문에 채택되어 기쁘게 생각한다”며 “더욱 혁신적인 기술을 개발해 한국 AI 스타트업의 기술 수준을 높이는 데 기여할 것”이라고 전했다.
댓글 0