뉴스 트렌드 생활정보 International edition 매체

네이버 탈락시킨 ‘프롬 스크래치’ 잣대··· 기술 효율보다 독자성 택한 과기부

입력 | 2026-01-19 19:58:00


지난해 8월 시작한 ‘독자 AI 파운데이션 모델 프로젝트’의 1차 선정 기업이 지난 1월 15일 발표됐다. 하지만 선정 방식을 놓고 뒷말이 무성하다. 과학기술정보통신부(이하 과기정통부)는 당초 5개 팀을 선발한 뒤 분기별로 1개 팀만 떨어뜨리기로 한 ‘경쟁형 R&D’을 제시했는데 이번 발표에서 두 개 팀을 떨어뜨리고, 정예팀을 추가로 공모하겠다고 계획을 변경했다. 이에 따라 점수분석을 기준으로 NC AI, 독자성 분석으로 네이버클라우드가 탈락했으며, 한 개 팀을 다시 확보해 올해 상반기 중 4개 정예팀 경쟁 체제를 확보하기로 했다

과학기술정보통신부가 당초 예고와 달리 독자 AI 파운데이션 모델 사업 1차 평가에서 네이버클라우드, NC AI를 탈락시켰다 / 출처=IT동아


예고 없이 두 개 팀이 탈락하자 개발자들 사이에서는 2136억 원의 예산이 투입되는 정부 사업이 즉흥적으로 진행되는 게 아닌지, 독자성을 놓고 제대로 된 기준이 확립되지 않은 게 문제가 아니냐는 목소리가 나오고 있다. 물론 독자 AI 파운데이션 사업 공지에 ‘해외 모델 미세조정 등으로 개발한 파생형 모델이 아닌 모델의 설계부터 사전학습 과정 등을 수행한 국산 모델’만 보겠다고 정의한 만큼 과기정통부의 결정이 틀린 것은 아니지만 논란이 사그라들진 않고 있다. 독자 AI 파운데이션 모델 선발과 관련한 설명과 시나리오를 종합해 봤다.

독자 AI 파운데이션, 발표 이후로 잡음 이어진 뒤 이례적 결정

독자 AI 파운데이션의 목적은 국민의 AI 접근성을 끌어올리고, 산업과 공공 전 분야에 AI를 지원해 혁신하겠다는 데 있다. 특히나 외산 AI를 적용하기 어려운 국방, 산업, 공공 분야부터 국민 개개인이 쉽게 활용하기 위한 AI를 만드는 게 목적이다. 성능 측면에서는 평가 시기를 기준으로 글로벌 AI 모델의 95% 수준을 달성하고, 정부가 직접 2136억 원의 규모를 투입해 데이터, 인력, 인프라를 제공한다.

김성훈 대표가 지난 1월 2일 긴급 해명을 통해 자신이 생각하는 프롬 스크래치 모델의 기준을 소개하고 있다 / 출처=IT동아


8월 시작한 1차 사업은 12월 30일에 1차 발표를 진행했고, 1월 15일까지 평가가 진행됐다. 한편 15일 사이에 사업 결과에 영향을 미친 두 가지 사건이 있었다. 1월 1일, 업스테이지의 솔라-오픈-100B 모델이 중국 지푸 AI(Zhipu AI)의 GLM-4.5-Air를 복사해서 만들었다는 논란이 터졌다. 다만 1월 2일에 김성훈 업스테이지 대표가 직접 독자성을 입증하며 일단락됐다. 그러자 개발자들 사이에서 다른 기업에 대한 AI도 검증하려는 움직임이 나왔고, 네이버클라우드의 하이퍼클로바X 시드 32B 씽크 모델이 알리바바 큐웬의 비전 인코더를 가져다 사용한 것이 확인됐다.

과기정통부는 정부의 AI 독자성 기준을 좀 더 명확히 했다. 기술적 측면에서는 대량의 데이터를 스스로 확보 및 가공하고 독자 학습 방법론을 적용해 AI를 독자적으로 구축한다. 정책적으로는 외산 모델 사용 시 국가 기밀 유출 우려가 있으므로 언제든지 스스로 개발 및 고도화할 수 있고 어떤 상황에서도 운용 및 이용 통제할 수 있어야 한다. 윤리적 측면에서는 AI 모델의 라이선스 정책을 준수하고, 공개 검증과 투명성 제고 등이 필요하다. 결국 네이버클라우드의 AI 모델은 독자성 기준에 부합하지 못했고 LG AI 연구원과 업스테이지, SKT 정예팀만 1차로 합격하게 됐다.

프롬 스크래치, 독자성에 대한 기준점이 달랐다

정부가 제시한 프롬 스크래치가 논란이 되는 이유는 프롬 스크래치에 대한 인식과 기준점이 개발자마다 제각각이라서다. 프롬 스크래치란 ‘완전히 처음부터’를 뜻하는 영단어로 달리기를 할 때 출발선을 긋는데서 비롯했다. 현대의 개발 환경은 복잡한 계층으로 이뤄져 어디서부터 시작하는 것을 독자 개발로 봐야하는 지가 다 다르다. 스택 오버플로를 창립한 조엘 스폴스키는 ‘기존에 있던 소스코드를 단 한 줄도 남기지 않고 완전히 버리고 새로 만드는 것’을 프롬 스크래치의 기준으로 봤고 이는 고전적인 정설로 통한다.

성낙호 네이버클라우드 기술 총괄이 지난 12월 30일 개최된 독자 AI 파운데이션 1차 발표회에서 멀티모달 구상에 대해 소개 중이다 / 출처=IT동아


하지만 현대에 와서는 개발 효율과 작업 속도에 맞춰 일부 수용까지는 프롬 스크래치로 인정하는 편이다. 김성훈 업스테이지 대표 역시 지난 1월 2일 진행된 발표에서 데이터를 직접 학습하는 것을 프롬 스크래치의 기준이라 말한 바 있다. ‘바퀴를 다시 발명할 필요’는 없으므로 대다수 AI 기업들은 전 세계적으로 검증된 인코더나 라이브러리를 같이 사용하고, 성능과 직결되는 엔진 개발에 더 집중한다. 네이버클라우드는 AI 내부의 데이터와 설계까지는 독자적으로 진행했고, 음성이나 이미지를 인식하는 도구인 ‘인코더’를 오픈소스 커뮤니티인 ‘허깅페이스’에서 가져와서 활용하는 것은 문제가 없으리라 판단했지만 정부에서는 이를 독자적이지 않은 것으로 본 것이다.

AI 석학으로 불리는 조경현 뉴욕대 교수는 “네이버클라우드 팀이 사전 학습된 비전 및 오디오 인코더를 사용한 이유로 실격된 것은 안타깝다. 제 견해로는 AI의 ‘지능(I)’은 토큰, 이미지, 오디오 조각의 다양한 관측값을 고도로 능력있는 신경망 모달로 매끄럽게 통합하는 데 있다”라면서 “평가 기준을 더 세밀하게 엄격하게 주장하자는 의견도 있지만 강하게 반대한다. 평가 방식을 유연하게 유지하고, 빠르게 변화하는 기술에 맞춰 지속적으로 조정해야 한다”라고 말했다.

최정규 LG AI 연구원 AI 에이전틱 그룹장이 K-엑사원의 관련 기술을 소개 중이다 / 출처=IT동아


네이버클라우드와 NC AI가 이탈하긴 했으나 역으로 LG AI 연구원, SK텔레콤, 업스테이지는 한정된 시간과 자원으로도 독자성과 역량을 인정받게 됐다. 세 개 기업이 선발될 수 있었던 것은 접근법에 차이가 있었다. LG AI 연구원은 K-엑사원을 설계할 때 엑사원 4.0 VL과 달리 멀티모달이 아닌 언어와 추론을 우선 개발했고, 업스테이지와 SK텔레콤 역시 언어 기능 지원에만 초점을 맞췄다. 정부 역시 언어 모델을 개발한 뒤 멀티모달모델, 액션모델로 확장하는 것을 기준으로 삼았다. 네이버클라우드가 차별화를 위해 시작부터 멀티모달에 도전했다가 되려 독자성 논란에 발목을 잡힌 것이다.

지나치게 엄격한 독자성 요구, 뜯어보니 납득 가

정부가 글로벌 추세와 다르게 도구 하나하나까지 독자성을 요구하는 이유는 AI 자체를 국가 생존과 직결된 전략 자산으로 여기기 때문이다. 굳이 비교하자면 방산 업계의 국산화와 유사한 개념이다. 우리 정부는 독자 AI 파운데이션의 결과물을 국방, 외교, 안보, 국가 인프라 등에도 접목할 계획이다. 여기에 외산 AI를 활용하면 기밀 유출 우려나 국가 안보 위협 등의 가능성이 발생할 수 있다. 또 경우에 따라 최적화하거나 개선해야 하는데 외산 AI로는 이런 요구를 충족하기 어렵다.

오늘날 AI는 코드 하나부터 완전히 독자개발하기보다는 오픈소스 등으로 검증된 코드 등을 가져다 조합하는 경우가 많은데, 오픈소스 자체를 악용할 가능성도 있다. 오픈소스는 수만 줄에서 수백만 줄의 코드로 이뤄져 있고 평범한 기능 개선을 위장해 백도어를 심을 수 있다. 작은 라이브러리 하나만 잘못 유입되면 전체 시스템이 뚫린다. 2024년에 발생한 XZ Utils 사건에서는 악의적인 오픈소스 하나로 전 세계 금융, 통신, 정부, 국방이 모두 마비될 뻔했다. 오픈소스를 활용하는 게 효율적이지만 국가 인프라 전반에 큰 타격을 입힐 가능성도 있다.

국방 분야에서는 무기체계 및 소재 국산화를 자주 국방의 핵심 역량으로 보고 중장기 계획을 수립, 시행 중이다 / 출처=국방기술진흥연구소


국방 분야에서도 같은 이유로 국산화를 고집한다. 우리 기술로 만든 무기에 미국산 나사 하나만 들어가도 그 무기를 제 3국에 수출할 때 미국의 허가가 필요하다. 장비가 고장나도 임의로 뜯거나 개조할 수 없고, 부품을 교체할 때도 제조국 승인이 필요하다. 외산 소프트웨어가 악의적으로 동작하면 원격으로 군장비가 무력화하거나 주요 군사 기밀이 새어나갈 수 있다. 국가적 긴급 상황이나 보안 문제 시 완전한 통제를 위해 국산화하는건데, AI가 군사적으로 쓰일 수 있어서 같은 잣대를 적용한 것이다.

기초가 탄탄한 AI 강국으로 가거나, 속도전에 패배하거나

정석근 SK텔레콤 AI CIC장은 500B 규모의 AI를 사회간접자본에 가깝다고 지칭하며, SK 그룹 전반이 국가 경쟁력 강화를 위해 힘쓰겠다고 말했다 / 출처=IT동아


독자 AI 파운데이션 사업의 강력한 국산화는 두 가지 시나리오로 나뉜다. 긍정적인 입장에서는 기초부터 자체 제어가 가능한 독자적인 AI를 실현하는 것이고, 부정적인 입장에서는 시대착오적인 국산화에 발목이 잡혀 구형 제품화에 그친다는 것이다. 긍정적인 측면에서 보자면 당장 AI가 어떻게 동작하는지 세세하게 확인할 수 있어 국내 환경에 가장 적합한 AI 모델로 만들 수 있다. 라이선스 문제에서도 자유로우니 기술 자립 측면에서 유리하다. 또한 처음부터 만드는 만큼 의료, 보안, 국방 등 아주 민감하고 특수한 특수 목적 AI를 만들기에도 적합하다. 이번에 합격한 세 개 기업이 성공적으로 개발을 완수한다면 긍정적인 결론에 닿는다.

독자 AI 파운데이션의 결과물이 좋지 않다면 미래가 어둡다. 오픈AI나 구글은 매년 수조 원을 투입해 AI를 구축한다. 반면 독자 AI 파운데이션 사업은 2년 간 2000억 원을 투입해 밑바닥부터 AI를 구 중이다. 이번 1차 평가를 통해 이들이 시중 모델에 가까운 우수한 결론을 내긴 했지만 앞으로의 결과는 장담할 수 없다. 독자 구조를 고집하다가 글로벌 표준과 동떨어질 수도 있고, 산업 생태계로 편입되지 못해 활용도가 떨어질 수 있다. 수천억 원을 투입하고도 ‘Made in Korea’라는 문구만 남을지도 모른다.

독자 AI 파운데이션 사업이 당초 계획과 다르게 진행되며 개발자들 사이에서도 사업의 방향성과 목표에 대한 논란이 이어지고 있다 / 출처=IT동아


과기정통부는 올해 상반기 중으로 잔류한 세 개 기업 이외에 추가로 한 개 팀을 다시 선발한다. 하지만 이미 네이버클라우드, NC AI, 카카오를 비롯한 많은 이해관계자들은 불참을 선언했다. 6개월 앞서 개발 중인 기업들과 경쟁하기 어렵고, 재도전을 시도했다가 또다시 탈락할 수 있어서다. 최종 선발될 가능성에 비해 이득이 적다는 판단이다. 정부가 설왕설래하다보니 AI 업계 전반의 분위기도 뒤숭숭하다.

결과적으로 독자 AI 파운데이션 사업의 핵심은 참가 기업의 성적표에 달렸다. LG AI 연구원의 경우 거대 자본과 인프라를 투입해 독자 모델이 글로벌 수준임을 입증하고, 업스테이지는 스타트업 규모의 기업이 만든 프롬 스크래치 모델이 대기업 못지않음을 보여야 한다. SK텔레콤은 500B(매개변수 5000억 개) 이상의 방대한 데이터를 통해 통신, 반도체, 데이터센터에 이르는 AI 인프라 전반의 연결고리를 구축해야 한다.

방위 산업에서 국산화는 ‘우리가 우리 무기를 완벽히 통제해야 한다’는 절박함 때문이다. 한국형 AI가 독자성을 고집하는 이유도 같은 맥락이다. 정부의 강력한 독자성 주문이 주권 AI의 완전한 실현으로 갈지, 또다른 갈라파고스화와 AI 경쟁에서 뒤처지는 배경이 될지는 독자 AI 파운데이션 기업들의 손끝에 달렸다.

IT동아 남시현 기자 (sh@itdonga.com)

트랜드뉴스

지금 뜨는 뉴스