모든 기업이 AX(AI Transformation)를 외치는 요즘. 그럼 똑똑한 개발자들이 AI를 더 많이 쓰게 만들면 일을 훨씬 더 잘하게 될까요? AI가 개발자의 능력치를 극대화해서 기업 생산성을 몇 배로 끌어 올려 줄까요.
얼마 전까지 미국 실리콘밸리는 이런 환상에 빠져있었습니다. 그래서 앞다퉈 직원들에게 더 많은 AI 사용, 이른바 ‘토큰맥싱(Tokenmaxxing)’을 독려했죠. 그런데 그 결과는? 불과 몇 달 만에 이게 얼마나 어리석은 짓이었는지가 줄줄이 확인되는 분위기인데요. AI 조급증과 ‘토큰 맥싱’ 현상을 들여다보겠습니다.
AI 사용량을 늘리면 기업 생산성을 끌어올릴 수 있을까? 실리콘밸리의 ‘토큰맥싱’ 실험이 실패로 끝나고 있다. 게티이미지
지난 2월 메타(Meta) CTO 앤드류 보스워스(Andrew Bosworth)가 한 이 발언, 꽤 화제가 됐습니다. 메타의 최고 엔지니어가 연봉에 맞먹는 금액을 토큰으로 결제했고, 그 결과 생산성을 “5배에서 10배 더 높였다”는 사실을 자랑하면서 했던 말이었는데요.
이는 당시 실리콘밸리의 분위기를 잘 보여준 발언이었습니다. 참고로 여기서 토큰(Token)이란 AI 모델이 데이터를 처리하고 생성하는 데 사용하는 연산 단위를 말하고요. 앤트로픽이나 오픈AI 같은 AI 서비스 제공기업은 고객이 쓴 토큰 양에 비례해 요금을 매기는 게 요즘 추세입니다. 첨단 AI 모델일수록 토큰 가격은 비싸죠. 예컨대 앤트로픽의 최신 모델 클로드 오푸스 4.6의 사용요금은 ‘출력’ 토큰 100만개당 25달러에 달합니다.
앤트로픽의 클로드 모델은 뛰어난 성능으로 개발자들에게 인기를 끌고 있지만, 최신 모델의 비싼 요금 탓에 점점 기업에 부담이 되고 있기도 하다. AP 뉴시스 한동안 메타뿐 아니라 미국의 크고 작은 IT 기업들은 너도나도 자기네 개발자들이 토큰을 얼마나 많이 쓰고 있는지를 자랑하기 바빴습니다. 아마존, 우버, 메타, 마이크로소프트 같은 IT 기업들은 ‘내부 순위표’를 만들었죠. 누가 가장 많은 토큰을 쓰고 있는지, 사용량을 집계해 공개했어요. 토큰을 가장 많이 쓴, 즉 회사에 가장 큰 비용을 초래한 개발자일수록 인정을 받았습니다. 토큰을 엄청나게 썼다는 건 그만큼 AI 기술에 잘 적응한 능력자라는 걸 보여주는 지표로 여겨졌죠.
특히 이런 경쟁에 기름을 부은 건 젠슨 황 엔비디아 CEO가 3월에 한 이 발언이었죠. “연봉 50만 달러를 받는 엔지니어가 연간 최소 25만 달러어치의 토큰을 소비하지 않는다면 매우 우려스러울 겁니다. 그건 우리 칩 설계자 중 한 명이 ‘글쎄, 난 그냥 종이와 연필만 쓸 거야. CAD(컴퓨터 지원 설계) 툴은 필요 없을 것 같아’라고 말하는 것과 다를 바 없죠.”
이렇게 ‘AI 토큰 사용량=생산성과 혁신성의 척도’라며 가급적 많은 토큰 소비를 독려하는 분위기. 이걸 일컫는 용어가 바로 ‘토큰맥싱(Tokenmaxxing)’이고요. 토큰맥싱은 AI 시대 실리콘밸리의 대세로 통했습니다.
‘순위표’가 만든 황당 꼼수들
토큰 사용량이 AI 기술 사용량을 보여주는 정량적 지표인 건 분명하죠. 기업이 직원들에게 혁신적인 기술을 돈 걱정 없이 마음껏, 더 많이 쓰라고 장려하는 건 어찌 보면 부럽기도 한데요. 하지만 기업들이 ‘내부 순위표’까지 공개하면서 AI 사용을 강하게 압박하자, 실제로 현장에서 벌어진 일은 다음과 같았습니다.
<아마존> 아마존에선 직원들의 사내 AI에이전트 ‘메쉬클로(Meshclaw)’ 사용량이 폭증했습니다. 메쉬클로는 이메일 분류나 슬랙(Slack) 앱과의 상호작용 수행 같은 업무를 하는 AI에이전트인데요. 업무에 그게 필요해서가 아니라, 그저 토큰 사용 수치를 극대화하기 위해 쓴 거죠. 예컨대 날씨 확인 같은 쓸데없는 일에도 말이죠. 메쉬클로 같은 AI 에이전트는 백그라운드에서 지속적으로 작업을 수행하기 때문에 대화형 챗봇보다 토큰을 1000배쯤 더 많이 소모할 수 있거든요.
이런 비효율이 이어지자, 5월 말 아마존은 결국 토큰 사용량을 공개하는 내부 순위표인 ‘키로랭크’를 없앴어요. 데이브 트레드웰 수석부사장은 직원들에게 이렇게 당부했죠. “AI를 단지 쓰기 위해 쓰진 말아달라.”
아마존은 토큰 사용량이 성과평가에 반영되진 않는다고 밝혔지만, 직원들은 AI를 최대한 많이 써야만 한다는 압박을 느꼈고 토큰 사용량을 부풀리기 바빴다. AP 뉴시스<마이크로소프트> 마이크로소프트 역시 직원별 토큰 사용량을 올 1월부터 공개했어요. AI 사용을 장려한다는 취지야 좋았죠. 하지만 익명의 MS 소프트웨어 엔지니어는 기술 뉴스레터 ‘프래그매틱 엔지니어’에 이렇게 털어놨습니다.
“토큰 사용량 지표를 부풀리기 위해 제가 하는 일들은 다음과 같습니다. AI에 이미 문서에 있는 코드에 대해 질문해요. AI는 문서를 검색하고 처리한 후 결과를 제공하는데, 이 과정은 (직접 검색하는 것보다) 10배 느리지만 토큰은 엄청나게 소모되죠. 저는 실제로 개발할 의도가 없는 기능의 프로토타입을 AI에 요청합니다. 몇 번 더 시도해 본 후, 결과물을 모두 버리죠. 직접 손으로 훨씬 빠르게 처리할 수 있는 작업이라도 항상 AI 에이전트를 사용하도록 설정해요. 그러고는 에이전트가 제대로 작동하지 않는 것을 지켜봅니다.”
마이크로소프트는 토큰 사용량 대시보드를 없애진 않았는데요. 대신 개발자들에게 제공해 온 앤트로픽의 ‘클로드 코드’ 라이선스를 6월 말 대거 해지한다고 공지했어요. 명분은 자체 AI 도구 사용을 장려하기 위해서라고 하지만, 실제론 너무 불어나 버린 비용을 줄이기 위해서란 해석이 나오죠.
메타는 전체 직원 중 토큰 사용량이 가장 많은 상위 250명의 순위표 ‘클로도노믹스’를 공개했고, 이는 엄청난 토큰 비용으로 이어졌다. AP 뉴시스<메타> 메타에서도 직원들의 토큰 사용량을 공개하는 순위표가 만들어졌어요. 최상위권에 오르면 ‘세션 불멸자(Session Immortal)’ 또는 ‘토큰 전설(Token Legend)’이란 명예로운 칭호를 부여받을 수 있었죠.
그런데 그 순위표 이름이 하필 ‘클로도노믹스(Claudonomics)’였답니다. 메타가 수십조원을 쏟아부어 만든 자체 AI 모델 ‘라마(Llama)’ 대신 경쟁사 앤트로픽의 ‘클로드(Claude)’ 모델을 내부 개발자들이 쓰고 있다는 걸 인정한 셈이었죠.
가장 놀라운 건 이렇게 AI 사용을 독려했더니 한 달 동안 메타 직원들이 소비한 토큰이 자그마치 73조7000억개에 달했다는 겁니다. 이게 얼마나 말도 안 되는 수치냐면, 이걸 앤트로픽 요금으로 환산하면 약 10억 달러(1조5000억원)어치에 해당합니다. 고작 한 달 만에 쓴 게 말이죠. 물론 메타 같이 큰 기업은 요금 할인을 적용받았겠지만, 그래도 최소 1억 달러는 썼단 뜻입니다.
도대체 이 무슨 낭비인가요. AI에 투자한다면서 직원도 수천 명이나 해고한 회사가. 결국 메타는 이런 추세이면 올해 토큰 비용만 수십억 달러가 들 거라며, 클로도노믹스 순위표를 없앴고요. 대신 팀별 토큰 사용량을 모니터링해서, 비정상적으로 지출이 급증하면 경고를 띄우는 ‘AI 게이트웨이’ 시스템을 도입한다고 공지했죠. 불과 4개월 전 “한계는 없다”고 큰소리쳤던 앤드류 보스워스 CTO 역시 180도 말을 바꿨습니다 . “모든 움직임이 진전을 의미하는 건 아니며 토큰 사용량만으로는 어떤 영향도 측정할 수 없다”고 말이죠.
지표가 목표가 될 때: 굿하트 법칙
세계적 빅테크 기업에서 이 무슨 어리석은 짓인가 싶습니다. 고연봉의 고급 엔지니어들이 순위표 상위권에 이름을 올리려고 AI 에이전트에 쓸데없는 일을 시키며 돈과 시간을 낭비하고 있으니 말이죠.
그럼 도대체 왜 이런 일이 일어난 걸까요. 사실 이와 비슷한 현상은 우리가 주변에서 흔히 찾아볼 수 있고요. 이를 일컫는 ‘굿하트의 법칙’이란 용어도 있습니다. 영국 경제학자 찰스 굿하트가 1975년 “측정 지표가 목표가 되는 순간, 더 이상 좋은 지표가 될 수 없다”고 지적한 데서 유래했는데요.
기술업계의 대표적 ‘굿하트 법칙’의 사례로 꼽히는 IBM의 운영체제(OS) 개발 스토리를 한번 볼까요. 1985년 컴퓨터 시장의 절대 강자였던 IBM은 떠오르던 기업 마이크로소프트와 차세대 PC용 OS를 공동 개발했어요. IBM은 당시의 관행대로 개발자의 생산성을 ‘코드 라인 수’로 측정하던 대기업이었죠. 더 긴 줄의 코드를 작성할수록 생산성 높은 개발자라고 평가하는 시절이었던 겁니다.
PC 시장의 판도를 바꿔놓은 제품, 1990년 출시된 마이크로소프트 윈도우 3.0의 로고. MS 제공 하지만 마이크로소프트 개발자들은 달랐죠. 그들은 짧고 간결하고 가벼워야 좋은 코드라는 사실을 너무 잘 알았기에, 기존 IBM 코드를 최적화해서 확 줄여놨어요. 그런데 이걸 보고 IBM 경영진이 뒤집어진 거죠. 그들은 “코드를 늘려야지, 왜 줄이냐”고 황당해하며 다시 늘리라고 했고요. 이렇게 해서 탄생한 운영체제 ‘OS/2’는 당연히 무겁고 느리고 버그가 많았죠.
이런 IBM의 관료주의에 질린 마이크로소프트는 비밀리에 ‘윈도우 3.0’ 독자 개발 프로젝트를 가동했고요. 1990년 출시된 가볍고 빠르고 효율적인 윈도우 3.0은 대히트를 쳤습니다. 이후 IBM은 PC시장의 주도권을 영영 잃고 말았죠.
당시 마이크로소프트의 빌 게이츠는 코드 라인 수에 집착하는 IBM 임원들에게 이런 독설을 날렸다고 해요. “소프트웨어 생산성을 코드 라인 수로 측정하는 건 비행기 제작의 진척도를 무게로 측정하는 것과 같다.” 눈에 보이는 지표(코드 라인 수/무게)에만 집착하면 본질(소프트웨어 성능/비행 능력)을 놓칠 수 있다는 경고였습니다.
어떤가요. 지금의 토큰 사용량에 대한 집착이 40년 전 IBM의 코드 길이 집착과 어딘가 비슷하지 않나요. 토큰 사용량은 어디까지나 입력값일 뿐, 그 자체로 결과를 보장하지 못한다는 너무나 당연한 사실이 간과됐던 거죠.
실리콘밸리에 거세게 일었던 토큰맥싱의 바람은 불과 몇 달 만에 잦아들었고요. 이젠 ‘얼마나 많은 토큰을 썼는가’ 대신 ‘토큰당 얼마나 가치 있는 결과를 냈는가’를 들여다보는 걸로 바뀌고 있습니다. 양보다는 효율을 따지기 시작한 거죠. 생각보다 금세 끝나버린 토큰맥싱 파티. 역시 아직 우리는 AI 시대의 극초기 단계를 지나고 있을 뿐이고 갈 길이 멀다는 걸 깨닫게 해주네요. By.딥다이브
댓글 0