문샷AI측, 벤치마크 점수 등 공개 훈련비 적은 새 가성비 모델 등장 “실제 성능은 별개, 사용성 봐야”
국내 이용자들도 키미 사이트에 접속해 가입 절차를 거치면 키미 K2 싱킹을 써볼 수 있다. 한국어 질문에도 무리 없이 답변을 내놓았다. 키미 홈페이지 캡처
광고 로드중
중국 인공지능(AI) 스타트업 문샷AI의 오픈소스 대형언어모델(LLM) ‘키미 K2 싱킹’이 일부 성능 테스트에서 오픈AI의 ‘챗GPT 5.0’보다 앞서는 결과를 낸 것으로 나타났다. 훈련 비용은 460만 달러(약 67억 원)에 그치는 등 새로운 ‘가성비 모델’의 등장에 AI 업계의 시선이 쏠리고 있다.
17일 정보기술(IT) 업계에 따르면 문샷AI는 6일 자사 홈페이지를 통해 키미 K2 싱킹을 공개했다. 7월 발표한 ‘키미 K2’에 이어 4개월 만에 개선된 버전을 내놓은 것이다. 국내 이용자들도 키미 사이트에 접속해 가입 절차를 거치면 키미 K2 싱킹을 써볼 수 있다. 직접 키미 K2 싱킹을 사용해 보니 한국어 질문에도 별다른 무리 없이 답변을 내놨다. 다만 답변을 내놓기까지 사고하는 시간이 타 모델에 비해 다소 길었다.
문샷AI 측에서 공개한 지표에 따르면 키미 K2 싱킹은 ‘HLE’ 테스트에서 도구 사용 기준 44.9점을 받았다. HLE는 추론·창의적 사고 능력을 평가하는 테스트로 AI가 가장 어려워하는 벤치마크 중 하나로 꼽힌다. 같은 테스트에서 챗GPT 5.0은 41.7점, 앤스로픽의 ‘클로드 소네트 4.5’는 32.0점, 딥시크의 ‘V3.2’ 모델은 20.3점을 받아 키미 K2 싱킹의 점수가 더 높았다.
광고 로드중
CNBC 등 외신에 따르면 키미 K2 싱킹의 훈련 비용은 460만 달러 수준인 것으로 전해졌다. 올 초 딥시크 측이 밝혔던 개발 비용 560만 달러(약 82억 원)보다 낮은 수준이다. 업계는 딥시크로 큰 주목을 받았던 중국산 ‘저비용·고효율’ 모델이 키미 K2 싱킹으로 재부상할 수 있다는 점에 주목하고 있다.
김근교 NC AI 글로벌사업실장은 “HLE 테스트에서 도구 사용 기준 글로벌 프런티어 모델을 앞섰다는 건 ‘에이전틱 AI’로서 키미 K2 싱킹의 능력이 더 앞섰다고 볼 수 있는 것”이라며 “다만 벤치마크 점수가 실제 성능을 대변하진 않는다. 앞서 벤치마크 성능이 뛰어났음에도 사용성을 입증하지 못한 모델들이 다수였듯 키미 K2 싱킹이 점수만큼의 활용성을 보여줄지는 앞으로 지켜볼 필요가 있다”고 말했다.
박종민 기자 blick@donga.com