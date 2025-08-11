기대치가 높으면 실망도 큰 법이다. 지난 8일 오픈AI가 새로운 AI 모델인 GPT-5를 정식 공개했다. GPT-5는 직전까지 비추론 모델인 GPT-4.5와 추론 모델인 o 시리즈로 나뉘어있던 라인업을 하나로 합친 모델로, 추론 기능을 내장해 신뢰성과 정확성이 크게 향상됐다. 틀린 대답을 생성하는 환각 현상을은 줄고, 코딩과 글쓰기, 헬스케어 등의 활용도가 훨씬 좋아졌다. 하지만 출시 후 첫 주말을 보낸 후 사용자들의 평가는 다소 엇갈리고 있다.
샘 알트만 오픈AI CEO는 출시를 앞두고 “박사급 전문가 팀을 주머니 속에 둔 것과 같다”라며 인공 일반지능 달성을 위한 중요한 진전이 있었다고 발언했고, 닉 털리(Nick Turley) 오픈AI 챗GPT 부문 부사장도 “새로운 모델은 지금까지 출시된 모델 중 가장 똑똑하고 빠르며, 더욱 자연스럽고 인간적인 대화 스타일을 제공할 것”이라며 시장의 기대치를 한껏 높여놨다.
성능 측면에서는 코딩 성능을 크게 강화한 덕분에 깃허브 난제를 해결하는 SWE-벤치 베리파이드에서 전작인 GPT-4o가 30.8%의 정확도를 기록할 때 GPT-5는 74.9%를 기록했고, o3 대비 도구 호출은 45%, 출력 토큰도 22% 절감하는 등 성능과 효율이 모두 올랐다. 환각 발생률도 GPT-4o 대비 약 45% 감소했고, 모르는 문제에 대해서는 지어내지 않고 모른다고 답변하는 등의 기능도 적용됐다. 그럼에도 불구하고 실사용자들의 평가가 엇갈리는 이유는 무엇일까? GPT-5, 기술적인 진보와 성능 향상 이뤘나
현재 생성형 AI 언어 모델의 성능을 확인하는 방법으로는 벤치마크가 쓰인다. 언어모델에 추론이나 논리가 필요한 어려운 문제를 제시하고 얼마나 정확하게 해석하고 맞추는지를 가늠한다. 어려운 문제를 맞히는 것 만으로 언어모델의 실사용 성능이나 효용성까지 모두 확인할 수는 없지만, 각 모델의 성능을 가장 단순하고 변별력 있게 구분할 수 있는 방법이다.
GPT-5는 도구 사용과 코딩 능력에서 큰 진보를 이뤘다. 우선 성능 향상을 위해 도구 호출 성능을 강화했다. 두 달 전 발표된 T2-벤치 텔레콤 벤치마크의 경우 지금까지 49% 이상의 점수를 받은 모델이 없다. 이 벤치마크는 언어모델이 도구를 사용 중이면서 사용자와 소통할 때 언어 성능이 저하되는 현상을 집중적으로 파고드는데, GPT-4.1이 34%, o3가 58%일 때 GPT-5는 97%를 획득했다. 즉 도구를 불러오면서 대화를 인식하는 성능 저하가 거의 발생하지 않는다는 의미다.
대수학, 기하학, 수론, 조합론 등이 포함된 수학 추론 능력 테스트인 AIME 2025 벤치마크에서 도구 없이 94.6%의 정확성을 기록했고, GPT-5 프로 모델이 파이썬 도구를 활용했을 때 정확도는 100%에 달했다. 전 세대인 o3가 도구를 사용했을 때의 정확도는 98.4%, GPT-4o는 도구를 써도 정확도가 42.1%에 불과하다.
448개의 대학원급 생물학, 물리학, 화학 문제로 구성된 GPQA 다이아몬드 테스트는 GPT-5 프로가 도구 사용 시 89.4%의 정확성을, GPT-5가 도구 없는 조건에서도 85.7%의 정확성을 기록했다. GPT-4o는 도구 없이 70.1%의 정확성을 보여준다. 즉 기본 무료 모델을 사용해도 이공계열 대학원생 수준의 질문까지는 상당히 높은 정확도로 대답한다.
다국어 코드 편집 성능을 확인하는 에이다 폴리글롯(Aidar Polyglot)은 o3가 79.6%, GPT-4o가 25.8% 일 때 GPT-5는 88%의 정확도를 보여줬다. 오류 비율은 o3 대비 3분의 1로 감소했다. 또한 커서, 윈드서프, 깃허브 코파일럿, 코덱스 CLI같은 에이전트 기반 코딩에서 원활한 성능을 내도록 조정됐다. API 사용 시 입력 가능한 토큰은 최대 27만 2000개의 입력 토큰을 허용하며, 최대 12만 8000개의 추론 및 출력 토큰을 내놓는다. 사용 가능한 콘텍스트의 길이는 40만 개로 매우 길어졌다.
그간 GPT의 효용성을 떨어뜨린 환각 발생률은 GPT-4o 대비 약 45%가 감소했으며, 심층 추론 모드를 활용하면 1%까지 감소한다. 실제 사람에게 미치는 영향이 큰 건강 관련 질의로 구성된 헬스벤치에서도 환각률은 1.6%로 GPT-4o의 12.9%보다 크게 낮아졌다. 오픈AI는 모르면 지어서라도 얘기했던 이전 모델들과 달리 모른다고 답변하도록 기능을 개선했다.
다만 벤치마크 점수는 모델의 기술적 성능을 객관적으로 표기하는 지표일 뿐, 실제 작업 환경에서의 실용적 가치와 인식 능력까지 평가하는 수단이 아니다. 예를 들어 SWE-벤치 베리파이드 벤치마크의 경우 ‘특정 코드 오류를 수정한 것이 잘 작동하는지’를 평가할 뿐 생성된 코드를 유지보수하거나 다른 사용자가 지속 가능하게 쓸 수 있는지, 팀의 코딩 표준을 준수했는지 같은 내용까지 고려하진 않는다. 특히나 벤치마크의 성능은 전문 영역에서 체감이 크기 때문에 수많은 실사용자들 사이에서의 의견이 엇갈리는 것이다. 이미 시작된 GPT-5 코딩 전쟁, ‘단 한 줄로 게임까지 생성’
GPT-5의 성능을 간단히 체감할 수 있는 부분이 코딩이다. 이미 GPT-5를 활용해 반응형 웹사이트나 앱, 3D 게임 등을 직접 구현하는 사례가 나오고 있다. 유튜버 ‘바룬 마야(Varun Mayya)’는 게시물을 통해 트위터 형태의 앱을 GPT-5 코딩으로 제작하는 법, 고객관계관리(CRM) 성립 및 실패 코드 구축, 2D 게임 만들기, 웹사이트 구축 방법 등 코딩에 대한 간단한 이해가 있는 경우에 만들 수 있는 도입 사례를 소개했다. 레딧의 특이점 서브레딧 페이지에는 GPT-5의 테스트 버전으로 추정되는 ‘호라이즌 알파’를 활용해 마인크래프트를 코딩으로 구현하는 사례가 등장하기도 했다.
전작에 비해 가격대가 저렴해진 점도 개발자들이 반기는 부분이다. GPT-5 API는 코딩 및 에이전트 작업에 최적화된 GPT-5, 잘 정의된 작업을 위한 저렴한 모델인 GPT-5 mini, 요약 및 분류 등의 가벼운 작업을 위한 GPT-5 nano 모델로 나뉜다. 이중 핵심 모델인 GPT-5의 가격은 입력 100만 토큰당 1.25달러(1735원), 출력 100만 토큰당 10달러(1만 3894원)다.
전작인 GPT-4o가 입력 100만 토큰당 5달러(6947원), 출력 100만 토큰당 15달러(2만 841원)인 점과 비교해도 절반 가까운 가격이고, 경쟁사의 최신 모델인 앤스로픽 클로드 오퍼스 4.1이 입력 100만 토큰당 15달러, 출력 100만 토큰당 75달러(10만 4205원)인 점과 비교하면 7분의 1 가격이다. 효율이나 성능을 배재하더라도 대규모 활용 시의 큰 이점이 있다. 소문난 잔치에 왜 질문에 제대로 대답해주는 AI가 없나
실사용자들 사이에서는 GPT-5의 체감 성능이 전작보다 못하다는 얘기가 나온다. 이전까지는 GPT-4o, o3, o-mini 등으로 사용자가 직접 모델을 선택해서 써야했다. GPT-5부터는 ‘실시간 라우터’ 기능을 통해 질의응답을 구분하고 자동으로 최적의 모델을 선택한다. 따라서 간단한 질문은 자동으로 GPT-5 Mini, nano 등이 동원되고, 고급 질문은 GPT-5나 추론 기능이 포함된 Thinking 기능이 사용되는 식이다. 또한 환각 감소 및 아첨을 줄이기 위한 안전 완성(Safe-completions)이 적용된다.
문제는 첫날부터 사용자 질문에 따라 모델을 결정하는 실시간 라우터가 제대로 동작하지 않았다. GPT-5로 답변해야할 고급 질문을 GPT-5 Mini가 답변하는 등의 문제가 발생했고, 많은 사용자들이 GPT-5의 실질 성능에 의문을 제기했다. 또한 LLM의 구조적 특징 중 하나인 학습된 내용과 실제 응답의 활용 범위가 달라 발생하는 분포이동이 발생하면 추론 능력이 급격히 저하되는 경우도 보고됐으며, 앞서 추론 모드로 답변을 했다가 이후 비추론 모델이 동작했을 때 결과 응답이 원활하지 않아 성능이 저하되는 등의 문제도 확인됐다.
실제 사용 환경에서는 많은 사용자들이 영문과 한국어를 혼용해서 대답하는 경우를 접하거나, GPT-5가 사용자에게 역으로 질문하는 등의 문제를 겪었다. GPT-5의 지식 마감일이 1년 전인 작년 9월 30일인 점도 아쉬움으로 남는다. 오픈AI는 주말 사이 GPT-5의 실시간 라우터에 문제가 있었음을 인정하고, 향후 어떤 모델이 답변했는지 알 수 있도록 조치하겠다고 밝혔다. 또한 유료 고객들을 상대로 GPT-4o 재사용을 검토하고 사용량 제한도 늘리겠다고 발표했지만, 근본적인 사용성이 바뀌는 것은 아니어서 사용자들의 불만은 당분간 이어질 전망이다. GPT-5 가이드 발표한 오픈AI, 향후 행방은?
GPT-5에 대한 평가는 한 편의 예술영화 같다. 평론가 평점은 잘 나오지만 반대로 관객 평점은 낮은 그런 상황이다. 실질적으로 문제 해결 능력과 성능은 올랐음에도 일반 사용자들을 위한 질문이나 이해 능력은 크게 체감하기 어렵다. 오픈AI는 ‘똑똑한 사람에게는 똑똑하게 질문해야 하는 법’이라는 논리로 프롬프트 가이드, GPT-5를 사용한 코딩 방법, 도구 활용 및 전환 방법 등을 연달아 공개하며 사용자 활용도 높이기에 나섰다. 실제로 사용자가 질문을 구체적이고 정확하게 제공할수록 LLM이 더 세밀하고 정확하게 대답한다. 하지만 사용자가 적당히 질문해도 좋은 대답을 하도록 설계했어야 하지 않을까?
오픈AI의 새로운 모델은 출시할 때마다 삐걱거렸다. 장점으로 부각된 경우도 많았지만 별로라는 부분도 많았다. 특히 차세대 모델은 GPT-4o, 4.1, 4.5, o3, o3-mini-high처럼 파편화하지 않겠다고 했지만, 정작 GPT-5에 GPT-5 mini, nano, Thinking, Thinking-mini, Thinking-Pro 등 또다시 다양한 모델로 나누고 사용자가 이를 선택할 수 없도록 하는 등 사용자에 대한 배려가 부족한 모습도 보인다. GPT-5가 인공 일반지능에 가깝다거나, GPT-5를 전후로 세상이 바뀔 것이라는 말에는 다소 과장이 있었지만, 어쨌든 모델 자체의 성능이 출중한 것은 사실이다. 다음 모델이 나오기 전까지 어떤 성과를 낼 수 있을지는 지켜볼 일이다.
댓글 0