AI도 쩔쩔맨 ‘인류 마지막 시험’ 공개… 한국인도 출제

동아일보

전혜진 기자

50개국 1000여명이 2500문항 내
수학-인문학 등 100개 분야 망라
제미나이 38.3%-GPT 29.9% 맞혀

전 세계 주요 인공지능(AI) 모델들조차 쉽게 풀지 못해 이들의 성능을 판단하는 데 활용되는 초고난도 벤치마크(AI 성능 비교 시험) ‘인류의 마지막 시험(Humanity‘s Last Exam·HLE)’ 내용이 공개됐다.

29일 국제학술지 네이처에 따르면 HLE는 수학·과학·인문학 등 100여 개 학문 분야 2500문항으로 구성됐다. 전 세계 50개국 1000여 명의 전문가가 문제를 출제했다. 국내에선 AI스타트업 에임인텔리전스의 박하언 최고기술책임자(CTO), 김대현 연세대 첨단컴퓨팅학부 교수 등 6명이 이름을 올렸다.

HLE는 미국 비영리단체 AI안전센터(CAIS)와 스타트업 스케일AI가 지난해 1월 처음 공개한 프로젝트로 약 1년간의 검증을 거쳐 공식 논문으로 발표됐다. 시험 문항은 수학부터 인문학까지 100여 개 세부 분야를 망라한다. 전체 문항 중 수학 비중이 41%로 가장 높다. 묘비에서 발견된 로마 비문 일부를 번역하거나, 벌새의 뼈 구조를 묻는 등 분야별 전문성을 요구하는 문제도 다수 출제됐다.

AI들의 성적은 낮은 수준에 머물러 있다. CAIS가 공개한 평가 결과에 따르면 구글 ‘제미나이 3 프로’가 정확도 38.3%로 가장 높은 점수를 기록했다. 오픈AI의 GPT-5.2는 29.9%, 오푸스 4.5는 25.8%, 딥시크 3.2는 21.8%에 그쳤다. 국내 AI 모델도 힘을 쓰지 못했다. 텍스트 문항만을 대상으로 한 평가에서 LG AI연구원의 ‘엑사원(EXAONE)’은 13.6%, 업스테이지의 ‘솔라 오픈’은 10.5%, SK텔레콤의 ‘A.X K1’은 7.6%를 기록했다.