AI에이전트 쓸수록 토큰 소모 급증 너도나도 가성비 높은 中모델 써 中모델, 주간 토큰 사용량 1~4위 韓도 ‘보안은 美, 데이터 中’ 투트랙
글로벌 숙박 공유 플랫폼 에어비앤비의 브라이언 체스키 최고경영자(CEO)도 최근 자사 앱에 알리바바의 AI ‘큐웬(Qwen)’을 연동했다며 “오픈AI (챗GPT)보다 빠르고 저렴하다”고 털어놨다.
AI가 사람 대신 복잡한 업무를 처리하는 ‘에이전트’ 시대가 열리면서 중국산 저가 모델이 급부상하고 있다. AI 에이전트의 천문학적인 ‘토큰(Token)’ 사용량에 기업들도 ‘가성비’를 따지게 된 셈이다.
광고 로드중
AI 모델이 처리·생산하는 데이터 연산 단위인 토큰은 쉽게 말해 AI 모델(LLM)을 돌리는 연료(기름)라 할 수 있다. 비싼 미국 최상위 AI모델이 고급 휘발유를 넣는 고성능 차라면, 중국산 모델은 싼 경유로도 달리는 실용 차인 셈이다. 에이전트는 이 차에 목적지만 알려주면 스스로 경로를 짜고 운전대를 조작하는 ‘자율주행 기사’ 격으로, 질문에 답하는 챗봇과 달리 외부 도구를 여러 차례 호출·검증하며 토큰을 순식간에 태운다.
지난해 4월만 해도 풍경은 딴판이었다. 클로드 소네트 3.7(3090억 개) 등 미국 빅테크 모델이 1∼5위를 독차지했고, 전체 1조8000억 개 토큰 사용량 중 과반(53.8%)이 미국 몫이었다. 그러나 올해 초 스스로 코드를 짜고 실행하는 ‘오픈클로’ 같은 자율형 에이전트가 잇따라 등장하면서 판도가 뒤집혔다. 이런 에이전트를 돌릴수록 토큰 소모가 급증하자, 비용 부담을 느낀 기업들이 초저가 중국 모델로 대거 갈아타고 있는 것.
광고 로드중
중국 가성비 AI모델의 침투에 미국에서도 엔비디아의 차세대 칩 ‘루빈(Rubin)’ 등 하드웨어 혁신으로 추론 단가(답변을 생성하는데 발생하는 비용, 일명 토큰 당 비용)를 낮추는 맞불을 놨다. 다만 글로벌 IT 연구기관 가트너는 2030년까지 거대언어모델 추론 단가가 90% 하락하더라도, 에이전트 확산으로 사용량이 최대 30배 늘어 전체 비용 부담은 지속될 것이라고 내다봤다.
윌 소머 가트너 시니어 디렉터 애널리스트는 “고급 추론을 뒷받침하는 컴퓨팅 자원과 시스템은 여전히 희소하다”고 말했다. 가트너는 작업의 경중에 따라 저비용 ‘경유’ 모델과 고성능 ‘고급 정제유’ 모델을 선택적으로 결합하는 ‘멀티 모델 오케스트레이션(조율)’ 역량이 다가올 기업과 국가의 AI 패권을 좌우할 것으로 전망했다.
김재형 기자 monami@donga.com
최지원 기자 jwchoi@donga.com