[단독]네이버, AI 학습용 데이터 직접 만든다… EBS-두산백과와 협력

동아일보

전혜진 기자

30년 축적 검색 데이터에 더해
콘텐츠 제작 병행, 차별화 시도
고품질 ‘레디데이터’ 확보에 사활
차세대 AI검색 서비스 출시 앞둬

네이버가 인공지능(AI) 성능을 고도화하기 위해 ‘AI레디데이터(AI-Ready Data·즉시 학습에 쓸 수 있는 데이터) 확보’를 핵심 과제로 설정하고 관련 사업을 확대하고 있다. AI가 곧바로 학습할 수 있는 양질의 데이터를 선별하고 부족한 데이터는 직접 만들어 채워 넣겠다는 구상이다.

네이버뿐만이 아니다. 구글, 메타, 오픈AI 등 빅테크들도 저작권 분쟁을 피하면서 정제된 데이터를 확보하려 언론사, 소셜미디어 플랫폼과 수조 원에 달하는 대규모 유료 계약을 맺고 있다. 이렇듯 빅테크들이 데이터에 공을 들이는 것은 그간 방대한 텍스트와 이미지를 학습시켜 대규모언어모델(LLM)의 성능을 높여 왔으나 ‘고품질 데이터’가 점차 고갈되어 가고 있기 때문이다. 양질의 데이터가 AI의 정확도를 좌우하는 만큼 경쟁에서 앞서 나가기 위해 더 좋은 ‘연료’, 즉 고품질 레디데이터 확보에 사활을 걸고 있는 셈이다.

● 승부처 된 레디데이터

AI레디데이터란 AI가 즉시 학습·추론에 쓸 수 있도록 가공된 데이터다. 방대한 텍스트·문서를 숫자 좌표(임베딩 벡터)로 변환해 저장한 형태다. 일반 데이터가 식재료라면, 레디데이터는 전자레인지에 넣기만 하면 되는 밀키트와 같다.

16일 정보기술(IT) 업계에 따르면 네이버는 최근 이 같은 AI레디데이터 확대에 역량을 모으고 있다. 7일 EBS와의 콘텐츠 협약이 대표적이다. 양사는 동식물·건강·금융·재난 등 포털 내에서 신뢰도 높은 콘텐츠가 부족한 분야를 중심으로 숏폼 콘텐츠를 공동 제작해 네이버의 AI 모델 학습과 서비스 고도화에 활용하기로 했다. 검색 생태계의 ‘빈틈’을 채울 원천 데이터를 직접 만들겠다는 것이다. 네이버는 두산백과와도 3년간 3만 건의 지식 콘텐츠를 구축한다는 협약을 맺고 지난해부터 콘텐츠 구축을 진행 중인 것으로 확인됐다. 대표 검색 포털로서 쌓아온 데이터 인프라에 더해, 콘텐츠를 직접 제작하는 방식을 병행해 ‘데이터 차별화’를 노리겠다는 것이다.

● 데이터의 ‘양’보다는 ‘질’

네이버가 AI 원천 데이터 직접 생산에 나선 이유는 심화되는 데이터 고갈 때문이다. 고품질 학습 데이터는 무한하지 않다. 비영리 연구단체 에포크AI는 2024년 논문에서 AI가 공개적으로 학습할 수 있는 고품질 텍스트 데이터가 2026년에서 2032년 사이에 바닥날 것이라고 전망했다. 저작권 분쟁 소지 때문에 아무 데이터나 갖다 쓸 수도 없다. 미국 매사추세츠공대(MIT) 연구에 따르면 전 세계적으로 AI 학습이 금지된 웹 데이터 비율은 50%에 달한다. 저작권 분쟁 소지가 없고 사실관계가 명확히 검증된 데이터가 갈수록 귀해지고 있다는 얘기다.

이에 이미 AI 업계의 무게중심은 데이터의 양에서 질로 옮겨가고 있다. IBM은 기업 데이터의 90% 이상을 차지하는 비정형 데이터를 레디데이터로 전환하는 전용 플랫폼과 거버넌스 체계를 구축했다. 구글, 메타, 오픈AI 등 빅테크들도 저작권 분쟁을 피하면서 정제된 데이터를 확보하려 언론사, 소셜미디어 플랫폼과 수조 원에 달하는 대규모 유료 계약을 맺고 있다.

한편 고품질 데이터 확보에 나선 네이버의 최종 목표는 본업인 ‘검색’ 역량 강화다. 이를 구현할 차세대 AI 검색 서비스 ‘AI탭’은 출시를 앞두고 17일부터 약 일주일간 비공개 베타 테스트(CBT)에 들어간다.

AI레디데이터(AI-Ready Data)
AI가 즉시 학습·추론에 쓸 수 있도록 가공된 데이터. AI 기술 상향 평준화로고품질 데이터를 안정적으로 확보할 수 있는 파이프라인이 더욱 중요해지면서, 레디데이터는 AX(AI 전환)시대의 ‘원유’로 불린다.