데이터 마구잡이로 학습하던 AI… 비밀-저작권 자료까지 출력해 논란
ICLR서 AI 기억 분석 ‘허블’ 공개… AI 암기력 낮추는 방법도 가능해져
챗GPT에 저작권 소송 낸 NYT… 기사 도용 여부 기술적 입증 쉬워져
“기억을 지워 드립니다.”
영화 ‘이터널 선샤인’의 두 주인공은 서로의 기억을 지우기 위해 특정 기억만 삭제해 주는 회사 ‘라쿠나’를 찾는다. 이처럼 오랜 시간 영화 속 상상에 머물러 있던 ‘선택적 망각’이 인공지능(AI) 업계에서는 현실 과제로 떠올랐다. 방대한 데이터를 닥치는 대로 학습하며 성장해 온 AI가 회사 기밀 정보까지 그대로 ‘기억’해 출력하는 사례가 잇따르고 있기 때문이다. ‘기업용 AI’에 매진하고 있는 빅테크들 사이에서 민감한 정보만 AI에서 선택적으로 제거하는 ‘언러닝(unlearning)’ 기술이 주목받고 있는 가운데 ‘선택적 망각’ 현실화의 기반이 될 도구도 등장했다.
● 기밀 정보 ‘선택적 망각’하는 AI 나오나
25일(현지 시간) 브라질 리우데자네이루에서 열린 국제학습표현학회(ICLR)에서는 AI가 ‘무엇을 어디에 기억하고 있는지’를 분석할 수 있는 오픈소스 연구 도구 ‘허블’이 공개됐다. ICLR은 2013년 AI 4대 천왕으로 불리는 얀 르쿤 뉴욕대 교수와 요슈아 벤지오 토론토대 교수가 창립한 세계 최고 권위의 AI 학회 중 하나로, 최신 AI 연구 흐름을 가늠하는 바로미터로 평가된다.
로빈 지아 미국 서던캘리포니아대(USC) 교수와 독일 막스플랑크 연구진 등이 공동 개발한 ‘허블(Hubble)’은 AI가 특정 데이터를 언제, 어떤 방식으로 학습할 때 더 강하게 기억하는지, 또 반대로 기억이 사라지는지 분석하는 도구다. 쉽게 말해 허블을 이용하면 AI의 암기력을 높이거나 혹은 낮추는 방법을 알 수 있는 것이다.
연구자들이 주목한 것은 암기력을 ‘낮추는’ 쪽이다. 주요 기업들이 업무에 AI를 도입할 때 가장 민감하게 보는 요소가 바로 회사의 기밀 정보 유출 가능성이다. AI가 내부 문서나 고객 데이터를 그대로 기억해 이를 외부에 노출시키는 경우 치명적인 리스크로 이어질 수 있기 때문이다. 국제학술지 사이언스는 “대규모언어모델(LLM)이 민감한 정보를 그대로 복사하는 ‘암기’ 문제는 AI 개발자들에게 큰 골칫거리”였다고 언급했다.
허블을 활용하면 AI가 회사의 기밀 정보를 기억하고 있는지를 확인할 수 있고, 더 나아가 특정 데이터는 암기하지 않도록 설계하거나 선택적으로 기억을 제거하는 ‘언러닝’ 기술 개발로 이어질 수 있다는 평가다. 특히 AI 인프라 구축에 수천만 달러를 쏟아부으며 매출 압박에 시달리고 있는 빅테크들 입장에서 기밀 유출 리스크를 제거한 ‘기업용 AI’는 ‘황금알 낳는 거위’가 될 수 있다. 허블에 대한 관심이 커질 수밖에 없는 이유다. 우사이먼성일 성균관대 소프트웨어학과·인공지능대학원 교수는 “특정 데이터가 실제로 모델 학습에 영향을 미쳤는지를 확인할 수 있을 뿐 아니라 ‘언러닝’ 이후 해당 정보가 실제로 제거됐는지를 입증하는 수단으로도 활용될 수 있다”고 말했다.
● “기억, 무엇을 남겨야 하냐가 핵심”
저작권 소송에도 허블의 영향력이 커질 수 있다는 관측이다. 뉴욕타임스는 오픈AI의 챗GPT가 자사 기사를 그대로 베끼고 복제했다며 저작권 침해 소송을 제기했다. 기존에는 이를 파악하려면 수천만 건의 사용자 대화 기록 등을 분석해야 했지만, 허블과 같은 도구를 활용하면 AI가 데이터를 어떻게 기억하고 활용하고 있는지 기술적으로 빠르게 입증할 수 있다.
업계에서는 그간 ‘미지의 영역’로 여겨졌던 AI 내부의 기억 저장 과정을 들여다볼 수 있는 도구가 등장했다는 점에서 의미가 크다는 평가도 나온다. AI를 보다 통제 가능한 시스템으로 전환할 수 있는 가능성이 열렸다는 것이다.
최병호 고려대 AI연구소 교수는 “(AI의) 기억은 지금도 중요하지만 앞으로는 절대적인 요소가 될 것”이라며 “피지컬 AI나 월드모델(현실세계) 환경에서는 기억의 양이 폭발적으로 늘어나는 만큼 무엇을 남기고 어떻게 저장할지가 핵심 과제가 될 것”이라고 말했다.
댓글 0