슈퍼 데이터센터 유치, ‘AI 3대 강국’ 도약 위한 교두보[기고/조용민]

올해 초 미국 실리콘밸리의 한 콘퍼런스에서 훈민정음 서문과 세종대왕의 얼굴이 무대 화면을 채우며 ‘한글은 인공지능(AI)이 가장 빨리 숙달할 수 있었던 언어’라고 소개된 순간을 잊지 못한다. 실제로 오픈AI와 구글의 대규모언어모델(LLM)은 2TB 용량의 한국어 데이터를 학습해 한글을 완벽히 마스터했다. 600년 만에 한글의 우수성이 객관적 지표로 증명된 것이지만, 한국인보다 유창하게 한국어를 쓰는 AI가 존재하는 상황은 다른 고민을 던진다. 일부에서는 해외 LLM의 동해 표기 논쟁이나 한복·한식의 왜곡 문제를 막겠다며 K-LLM을 만들어야 한다고 주장한다. 반대로 한국형 AI는 의미 없다고 폄하하는 이들도 있다. 그러나 이런 논쟁은 ‘소버린(sovereign·주권) AI’에 대한 잘못된 이해에서 비롯됐다. 즉, 모델의 유창성과 데이터 주권을 구별해서 봐야 하는 것이다. 예컨대 구글 제미나이가 학습하고 있는 구글 데이터세트에서 ‘Japan History’를 찾으면 일본 정부가 관리 자세히 보기
동아일보