“가장 뛰어난 K-언어모델은?” 와서 보고 직접 가려주세요

입력 | 2025-08-06 13:42:59

K-언어모델 비교 실험 ‘WBA(와바)’, 대중의 평가로 결정되는 AI 순위
비전문가도 직접 질문하고 답변 비교… 공정, 신뢰, 재미 모두 잡아

WBA 서비스 메인 화면. 이미지=프렌들리AI 제공

광고 로드중

AI 기술 전문 기업 프렌들리AI(대표 전병곤)가AI 비전문가도 참여할 수 있는 K-언어모델 비교 실험 플랫폼, ‘WBA(World Best AI, 와바)’를 6일 공식 출시했다.

WBA는 블라인드 테스트 방식으로 사용자가 AI언어모델을 평가할 수 있는 서비스다. 평가 순위표 (리더보드, Leaderboard)도 공개된다. 쉬운 사용법과 공정성, 재미 요소를 모두 갖춘 것이 특징이다.

최근 LG AI연구원, 업스테이지, SKT, 네이버 등 국내 AI 기업들은 다양한 언어모델을 오픈소스로 공개했다. 하지만 개발사가 공개한 일부 벤치마크 점수만으로는 실사용 환경에서 어떤 모델이 더 뛰어난 성능을 지녔는지 비교하기 어렵다.

광고 로드중

이에 WBA에는 사용자 중심 평가 시스템이 채택됐다. 사용법도 간단하다. WBA에 사용자가 원하는 질문을 입력하면 무작위로 선택된 2개의 언어모델이 즉시 답변을 제공한다. ‘논리적 응답’ 옵션을 체크할 경우 추론(Reasoning) 언어 모델 2개가 응답을 생성한다. 사용자는 두 답변 중 더 마음에 드는 답변을 선택하면 된다. 평가 대상의 모델 이름은 사용자 투표가 끝나야 공개되므로 점수 조작이 불가능하다. WBA 리더보드 순위는 이 투표 점수를 합산한 결과로 결정된다.

WBA 모델 평가 인터페이스 예시. 이미지=프렌들리AI 제공

WBA 서비스는 홈페이지에 접속하여 누구나 무료로 부담 없이 이용할 수 있다. 동시에 2개 모델의 답변이 생성되므로, 평소에 써보지 못한 다양한 모델을 경험할 수 있다.

정부가 지난 4일 선정한 국가대표 AI 정예팀(독자 AI 파운데이션 모델 사업)의 주관사들 (LG AI연구원, 업스테이지, SKT, 네이버 등)도 만나볼 수 있다. 또한 OpenAI, Anthropic, Google 등 글로벌 빅테크의 대표 모델과 DeepSeek, Qwen 같은 해외 유명 오픈소스 모델도 함께 등록되어 있어, 정예팀의 K-언어모델과 해외 언어모델 간의 직접적인 비교 평가도 가능하다.

전병곤 프렌들리AI 대표는 “한국에서 AI 언어모델 개발 경쟁이 본격화된 지금, 실제로 대중이 선택하는 진짜 고성능 AI가 무엇인지 확인해볼 기회”라며 “WBA는 누구나 참여해 재미와 보람을 얻어갈 수 있다. 주저하지 말고 이번 K-언어모델 비교 실험에 참여해보라”고 전했다.

최용석 기자 duck8@donga.com

“가장 뛰어난 K-언어모델은?” 와서 보고 직접 가려주세요

K-언어모델 비교 실험 ‘WBA(와바)’, 대중의 평가로 결정되는 AI 순위
비전문가도 직접 질문하고 답변 비교… 공정, 신뢰, 재미 모두 잡아

트랜드뉴스

“합의안 반대” DX조합원 1만명 늘자… 초기업노조 “투표 제외”

“팔·다리 잃고도 다시 운동 시작” 보디빌딩 무대 오른 30대 남성

없어서 못파는 ‘슈퍼 호황’ 반도체… 머스크는 173조 공장 짓는다

“은퇴 뒤 뭐라도 되겠지? 도전 멈추면 도태됩니다”[은퇴 레시피]

김선태, 유튜브 석달만에 1억 기부…“내 돈이라 약간 아깝다”

이스라엘서 풀려난 활동가 “정부가 막아도 다시 가겠다”

‘스벅 불매’ 공직사회로 번져…“배달 않겠다” 라이더도 등돌렸다

전원주, 정청래 손잡고 ‘엄지 척’…與 유세현장 깜짝 등장

신동욱 “하정우 화이팅”…논란 일자 “우정식당 화이팅 외친것”

정청래 “스벅 불매운동 불길처럼 번지기 전에, 정용진 석고대죄하라”

지금 뜨는 뉴스

5·18 폄훼 논란 ‘스벅 불매’ 공직사회 확산… 행안부 이어 공무원노조-국방-법무 “동참”

국민성장펀드 10분만에 ‘온라인 완판’…5대은행 오픈런 2200억 매진

워시 연준 의장, 공식 취임…트럼프 “진심으로 독립적이길”

“가장 뛰어난 K-언어모델은?” 와서 보고 직접 가려주세요

K-언어모델 비교 실험 ‘WBA(와바)’, 대중의 평가로 결정되는 AI 순위 비전문가도 직접 질문하고 답변 비교… 공정, 신뢰, 재미 모두 잡아

“합의안 반대” DX조합원 1만명 늘자… 초기업노조 “투표 제외”

“팔·다리 잃고도 다시 운동 시작” 보디빌딩 무대 오른 30대 남성

없어서 못파는 ‘슈퍼 호황’ 반도체… 머스크는 173조 공장 짓는다

“은퇴 뒤 뭐라도 되겠지? 도전 멈추면 도태됩니다”[은퇴 레시피]

김선태, 유튜브 석달만에 1억 기부…“내 돈이라 약간 아깝다”

이스라엘서 풀려난 활동가 “정부가 막아도 다시 가겠다”

‘스벅 불매’ 공직사회로 번져…“배달 않겠다” 라이더도 등돌렸다

전원주, 정청래 손잡고 ‘엄지 척’…與 유세현장 깜짝 등장

신동욱 “하정우 화이팅”…논란 일자 “우정식당 화이팅 외친것”

정청래 “스벅 불매운동 불길처럼 번지기 전에, 정용진 석고대죄하라”

5·18 폄훼 논란 ‘스벅 불매’ 공직사회 확산… 행안부 이어 공무원노조-국방-법무 “동참”

국민성장펀드 10분만에 ‘온라인 완판’…5대은행 오픈런 2200억 매진

워시 연준 의장, 공식 취임…트럼프 “진심으로 독립적이길”

K-언어모델 비교 실험 ‘WBA(와바)’, 대중의 평가로 결정되는 AI 순위
비전문가도 직접 질문하고 답변 비교… 공정, 신뢰, 재미 모두 잡아