네이버 ‘클로바X’ 기본적 교통-시사 답변 오류… 뉴스 무단 사용도 논란[인사이드&인사이트]

동아일보
입력 2023년 9월 18일 23시 30분

지민구 기자

한국의 생성형 인공지능 현주소는

《지난달 24일 초거대 인공지능(AI) ‘하이퍼클로바X’를 공개한 네이버의 주가는 전날보다 6.26% 오른 22만9000원이었다. 장중 한때 23만5000원까지 오르기도 했다. 한국을 대표하는 초거대 AI가 나왔다는 기대감은 시장을 들뜨게 했다. 네이버는 주식시장 마감 후인 이날 오후 4시 오픈AI의 ‘챗GPT’와 같은 대화형 AI 서비스 ‘클로바X’ 시범 서비스를 시작했다.

그런데 분위기가 사뭇 달라지기 시작했다. 실제 클로바X를 써본 이용자들이 소셜미디어와 온라인 게시판 등에 ‘기대보다 실망했다’는 등의 부정적 반응을 올리면서부터다. 다음 날 네이버 주가는 7.86% 하락한 21만1000원에 장을 마감했다. 시가총액 약 3조 원이 하루 만에 증발한 것이다. 네이버는 “시범 서비스를 거쳐 학습 범위를 넓히고 답변 품질도 높일 것”이라고 했지만, 글로벌 AI 서비스로 눈이 높아진 대중을 사로잡기엔 역부족이었다.》

정보기술(IT) 업계에서는 한국과 미국 테크기업 간 기술 수준 및 투자 규모 차이가 여전히 크다고 지적한다. 단적인 예로 미국 마이크로소프트(MS)는 올해 1월 오픈AI에 100억 달러(약 13조3100억 원)를 투자하겠다고 발표했다. 네이버의 최근 5년간 AI 투자액 1조 원과 비교하면 10배가 훌쩍 넘는다. 한국형 AI가 글로벌 경쟁력을 갖기 위해서는 이런 격차부터 줄여야 하는 과제를 안고 있는 셈이다.

● 기대주였던 네이버, 환각 효과 등 문제 노출

클로바X를 써본 이용자들이 제기하는 문제점 중 하나는 잘못된 내용을 사실처럼 답변하는 할루시네이션(환각 현상)이다. 실제 18일 오후 광화문에서 강남역까지 가는 가장 빠른 방법을 묻자 클로바X는 ‘지하철 5호선에서 서대문역 방향 열차를 탑승해 종로3가역에서 3호선으로 환승해야 한다’고 답했다. 광화문역에서 종로3가역 방향 열차를 타야 하는데 반대 방향으로 길을 안내한 것이다. 요금도 실제(1350원)보다 100원 비싼 1450원으로 답변했다. 출처를 묻자 ‘실시간 교통 정보는 제공할 수 없다’는 답이 돌아왔다. 네이버가 운영하는 교통 애플리케이션(앱) ‘네이버지도’는 정확한 이동 정보를 제공했다. 이미 양질의 교통 데이터를 보유한 회사의 AI 서비스가 안방 정보를 제대로 학습하지 못한 것이다.

시사 정보에 대한 오류도 나온다. ‘일본 정부가 언제부터 후쿠시마 오염수를 방류하기 시작했나’란 질문에 클로바X는 ‘2023년 7월부터’라고 답했다. 오염수 방류는 8월 24일 시작됐다. 수많은 언론매체를 통해 널리 알려진 정보에 대해 오답을 내놓은 것이다.

물론 할루시네이션은 챗GPT나 MS 빙, 구글 바드 등 미국의 내로라하는 생성형 AI 서비스들도 공통적으로 겪는 문제다. 기존에 학습한 자료 외에 실시간으로 쏟아지는 새로운 정보까지 즉각 반영하고 이를 문맥에 맞춰 답변하는 건 추가적인 기술 개발이 필요한 상황이다. 세계 최고 IT 기업이라는 구글마저도 2월 6일 바드 홍보 영상 속의 답변이 오류로 확인돼 모기업 알파벳 주가가 7.7% 급락했다. 당일 증발한 시가총액은 1056억 달러(약 140조5340억 원)에 달한다.

그럼에도 클로바X에 대해 이용자와 투자자가 실망감을 드러낸 것은 네이버가 “한국어 서비스만큼은 자신 있다”고 강조해 왔기 때문이다. 네이버는 클로바X가 챗GPT보다 한국어를 6500배 더 많이 학습했다고 설명했다. 일부 이용자들은 블로그나 웹페이지상의 부정확한 정보들이 제대로 걸러지지 않고 답변으로 활용되는 것 아니냐는 의심의 눈초리를 보낸다.

네이버는 클로바X의 기반인 초거대 AI 하이퍼클로바X의 정확한 학습 출처와 분량, 매개변수 등을 공개하지 않고 있다. 네이버 관계자는 “앞으로 법률이나 수학, 논문 등 다양한 전문 데이터를 학습시켜 하이퍼클로바X를 고도화할 예정”이라며 “이용자가 질문한 내용에 대한 참고 정보(출처) 범위도 점차 확대할 것”이라고 했다. 또 “기술적으로도 추론 과정을 통해 질문 의도를 정확하게 파악하고 신뢰할 수 있는 결괏값을 사용하며, 답변 생성 과정에서 일관성을 재확인해 신뢰성을 높이도록 하고 있다”고 덧붙였다.

● “B2B 시장에서 차별화 꾀하고 수익 내야”

영국 데이터 분석 업체 토터스 인텔리전스가 6월 발표한 ‘글로벌 AI 지수’에 따르면 한국은 세계 6위에 올랐다. 미국이 1위였고, 중국 싱가포르 영국 캐나다가 2∼5위를 차지했다. 한국이 전 세계 주요 62개국 중 최상위권에 속한 건 맞지만, 지수 자체만 놓고 보면 40.3점으로 미국(100점)과는 격차가 크다.

이런 상황에서 국내 기업이 글로벌 경쟁력을 확보하는 방안으로는 전문 영역에 특화한 ‘버티컬 서비스’를 꼽는 이들이 많다. 챗GPT나 클로바X 같은 대화형 AI 서비스가 일반 이용자를 대상으로 한 것이라면 버티컬은 기업 간 거래(B2B) 영역에 해당한다.

LG가 7월 공개한 초거대 AI ‘엑사원 2.0’이 대표적이다. LG는 화학, 바이오, 의료, 금융 등 산업 현장에서 다른 기업이나 기관들이 활용할 수 있는 서비스 개발에 집중하고 있다. 전문적인 지식을 질문하고 이를 답해줘야 하는 서비스인 만큼 엑사원의 학습 데이터도 주로 연구 보고서나 논문 등이다. LG AI연구원 관계자는 “기본적으로 제조업을 포함한 산업 현장 곳곳에서 활용할 수 있는 초거대 AI 서비스를 지향하고 있다”고 말했다.

엔씨소프트는 지난달 17일 자체 개발한 게임 전용 생성형 AI 모델 ‘바르코’를 공개하기도 했다. 바르코는 게임용 이미지와 글, 디지털 휴먼(가상 인간) 등을 생성해준다. 다양한 콘텐츠 개발사가 게임에 특화한 AI 모델을 활용하도록 한 뒤 이를 통해 기업 간 거래 시장에서 수익을 낸다는 전략이다.

올해 4분기(10∼12월) 중 초거대 AI ‘믿음’을 공개할 예정인 KT도 교육이나 건강관리 등 특화 영역에 집중할 예정이다. 네이버도 다음 달부터 외부 기업이 자체 데이터를 활용해 스스로 AI 모델을 만들 수 있는 B2B 형태의 서비스를 출시할 계획이다. 남효지 SK증권 연구원은 “쇼핑 입점 업체(중소상공인) 대상의 유료 구독 서비스 형태의 생성형 AI 서비스는 실적 증가 효과로 이어질 수 있다”고 전망했다.

● 언론사 콘텐츠 이용 문제 해결도 과제

국내 AI 기업의 남은 과제 중 하나는 언론사 뉴스 콘텐츠 사용에 대한 저작권 문제다. 최수연 네이버 대표는 지난달 24일 기자간담회에서 “(언론사에서 작성한) 기사가 가장 양질의 고품질 데이터가 맞다”며 “이를 (초거대 AI에) 앞으로 어떻게 활용할지를 두고선 국제적으로 첨예한 이슈가 있는 상황”이라고 말했다. 하이퍼클로바X에게 한국어 뉴스를 학습시킨 것에 문제가 없고, 향후 뉴스 사용에 대한 대가 지급 등에 대해선 해외 상황을 봐가며 결정하겠다는 취지다.

하지만 한국신문협회와 한국온라인신문협회는 하이퍼클로바X가 과거 언론사들의 뉴스를 무단 학습한 데 대해 “불공정한 데다 명백한 저작권 침해”라고 지난달 밝혔다. 네이버는 제휴 언론사들과의 약관에 따라 뉴스를 사용했다고 주장하고 있지만 언론사들은 네이버가 구체적인 내용을 설명하지 않고 언론사들의 개별 동의 없이 뉴스를 사용한 것이어서 무효라고 지적하고 있다.

이미 글로벌 미디어 업계는 AI의 콘텐츠 학습과 관련한 원칙을 발표하는 등 대응에 나섰다. 세계신문협회는 6일 글로벌 AI 원칙을 발표하며 “콘텐츠 소유자의 지식재산권(IP)을 존중해야 한다”며 공정한 보상을 받을 권리 등을 강조했다. 이 글로벌 AI 원칙에는 한국신문협회 등 글로벌 언론기관과 단체 26곳이 참여했다. 대니얼 코피 뉴스미디어연합(NMA) 회장은 “AI 시스템은 학습에 사용하는 콘텐츠에 따라 성능이 달라지므로 생성형 개발자는 (뉴스) 콘텐츠가 시스템 개발에 이바지하는 막대한 가치를 인정하고 언론사에 적절한 보상을 제공해야 한다”고 강조했다.