머스크 “그록4, 최신 GPT-5보다 훨씬 똑똑”…올트먼 향해 도발

뉴스1

머스크 “코딩도 승리할 것, 올해 연말 전 그록5 공개”
인류마지막시험 벤치마크 대결서 ‘그록4’ 2.4%p 앞서

일론 머스크 xAI CEO가 자신의 ‘그록4 헤비’가 오픈AI의 ‘GPT-5’보다 성능이 더 뛰어나다고 주장했다.

‘인류의 마지막 시험’(Humanity‘s Last Exam)이란 극난도 AI 벤치마크에서 그록4 헤비가 더 높은 점수를 받았다는 게 근거다. GPT-5 출시 직후 불거진 부정적 이슈를 부채질해 우위를 점하겠다는 의도로 풀이된다.

14일 업계에 따르면 머스크는 X(옛 트위터)를 통해 “결론부터 말하자면 그록4 헤비는 2주 전부터 GPT-5보다 더 똑똑했고 지금 훨씬 더 좋아졌다”며 “코딩 분야에서 그록이 단연코 승리할 것”이라고 말했다.

머스크는 또 “그록5는 올해 연말 이전에 나올 예정”이라며 “엄청나게 좋을 것”이라고 했다.

머스크의 자신감은 ’인류의 마지막 시험‘(Humanity’s Last Exam·HLE) 벤치마크 결과에서 그록4 헤비가 44.4% 성적을 기록해 GPT-5 프로(42%)를 앞선 데서 나왔다.

HLE는 100개 이상 학문 분야의 2500개 박사급(PhD-level) 문제로 구성됐다. 로마 비문 번역부터 양자화학까지 단순 암기가 아닌 진정한 추론 능력을 평가한다.

극악의 난도로 ‘구글 제미나이 2.5 프로’도 26.9%에 그쳤다. 대부분 AI 모델은 30% 미만 성과를 보였다.

전문가들은 두 모델의 성능 차이를 두고 근본적으로 다른 아키텍처 접근법에서 비롯된 것으로 분석했다.

그록4 헤비는 여러 AI 에이전트를 병렬로 연계해 문제를 해결한 후 결과를 비교 검증하는 ‘멀티 에이전트 시스템’을 채택했다. 복잡한 추론 문제에서 높은 정확도를 보이지만 처리 속도가 초당 75토큰으로 상대적으로 느리다.

GPT-5는 빠른 응답과 깊은 추론을 하나의 통합 시스템에서 구현하는 단일 모델 아키텍처를 적용했다. 초당 150토큰 이상 처리 속도로 그록4보다 빠르지만, 극도로 복잡한 추론 문제에는 상대적으로 약할 수 있다.

비용효율 측면에선 GPT-5가 우위를 보인다. GPT-5는 일반 이용자도 플러스 요금제(월 20달러·약 2만 7000원)로 이용할 수 있지만, 그록4 헤비는 월 300달러(약 41만 원)를 내야 한다.

API 요금도 GPT-5가 입력 토큰 100만개당 1.25달러·출력 토큰 100만개당 10달러로 그록4(입력 3달러·출력 15달러) 대비 저렴하다.

한편 구글 카글(Google Kaggle)이 최근 주최한 AI 체스 토너먼트 결승에서는 오픈AI ‘o3’가 ‘그록4’를 4-0으로 완승했다.

머스크는 “체스 성능은 큰 의미가 없다”며 “xAI는 체스 학습에는 거의 노력을 기울이지 않았다”고 했다.

(서울=뉴스1)