목소리 15초 들으면 복제 AI 공개… “딥페이크 망령 불러내”

동아일보

챗GPT와 결합한 음성복제 기술
특정인 목소리로 각종 콘텐츠 생성… “저렴한 비용으로 고품질 음성 가능”
美대선 앞 딥페이크 확산 우려에… 오픈AI “대규모 배포 당분간 안해”

“힘이란 물체를 움직이고 방향을 바꾸게 하는 것인데….”

물리학 개념인 ‘힘’을 설명하는 15초 분량의 목소리가 흘러나왔다. 이를 들은 인공지능(AI)은 곧장 이 목소리로 생물, 영어 독해, 수학 등 각 분야 강의 샘플을 만들어 냈다. AI가 목소리를 복제한 뒤 그 목소리로 챗GPT가 만든 텍스트를 읽은 것이다.

이는 오픈AI가 지난달 29일(현지 시간) 맛보기(프리뷰) 방식으로 공개한 음성 복제 모델 ‘보이스엔진’의 샘플 사례다. 오픈AI는 보이스엔진이 15초 분량의 사람 목소리만 있으면 거의 똑같게 음성을 복제해 낸다고 밝혔다.

AI의 음성 복제 기술 자체가 새로운 것은 아니다. 이미 수많은 스타트업과 기술 기업이 음성 복제에 뛰어든 상태다. 하지만 챗GPT와 같은 강력한 언어 생성 AI 모델과 전 세계 1억8000만 명의 사용자를 보유한 오픈AI가 음성 복제에 뛰어들었다는 점에서 딥페이크(조작된 영상, 이미지, 음성)가 불러올 혼란에 대한 우려를 키우고 있다. 블룸버그통신은 “딥페이크의 망령을 불러내고 있다”고 평가했다.

● 챗GPT-15초 음성 복제술 결합의 ‘위력’

챗GPT는 사용자의 질문을 받고 텍스트를 생성하며 이를 음성으로 변환해 읽어주는 ‘읽어주기’ 기능이 있다. 여기에 보이스엔진을 접목하면 챗GPT가 특정인의 목소리로 각종 콘텐츠를 생성해 낼 수 있다. 또 15초 목소리 샘플만으로도 해당 목소리로 각종 언어를 구사할 수 있다.

오픈AI는 우선 15초 목소리만으로도 정확한 음성 복제가 가능하다는 기술력을 강조하고 있다. 제프 해리스 오픈AI 제품 책임자는 미 정보기술(IT) 매체 테크 크런치와의 인터뷰에서 “오픈AI의 개발 방식이 더욱 강력하고 고품질의 음성을 만들 수 있다”고 밝혔다.

오픈AI가 음성 복제 기술에 뛰어든 이유는 기업 고객의 수요가 높기 때문이다. 성우 등 내레이터를 한 번만 고용하면 이를 바탕으로 각종 광고, 비디오게임, 공공장소 안내방송까지 AI가 대신할 수 있어 비용을 크게 줄일 수 있다. 테크 크런치에 따르면 보이스엔진 사용 비용이 일레븐렙스, 레플리카 스튜디오 등 다른 스타트업의 제품보다 훨씬 저렴한 것으로 파악된다.

오픈AI는 챗GPT와 음성 복제 기술력의 결합이 불러올 딥페이크 확산 우려를 감안한 듯 “‘선한’ 분야에서 음성 복제가 활용될 수 있다”는 점도 강조했다. 오픈AI의 보이스엔진 개발 협력사 중 하나인 비영리 의료 시스템 라이프스팬의 노먼프린스신경과학연구소가 갑작스러운 뇌종양으로 목소리를 잃게 된 어린 환자에게 예전에 학교 프로젝트용으로 녹음한 음성을 토대로 원래 목소리를 복원해 줬다는 것이다. 이 환자는 AI를 통해 자신이 입력한 텍스트를 자신의 목소리로 읽게 할 수 있다.

● ‘오용 우려’ 대규모 배포 일정은 미정

문제는 한층 진화된 음성 복제 기술이 딥페이크와 같은 부작용을 더욱 악화할 수 있다는 점이다. 올해 1월 조 바이든 미국 대통령을 사칭한 AI 목소리로 유권자들에게 무작위 전화가 걸려 오는 사건이 충격을 주기도 했다. ‘가짜 바이든’은 11월 대선 후보를 선출하기 위한 뉴햄프셔주 프라이머리(예비선거)를 앞둔 주민들에게 “투표하지 말라”고 권유하는 등 선거에 영향을 주려 했다. 이후 미 연방통신위원회(FCC)는 AI발 ‘로보콜’ 자체를 금지했다.

영상과 결합해 유명인을 사칭한 허위 광고, 투자 권유 사기 범죄도 급증하고 있다. 미국에선 배우 톰 행크스가 자신을 사칭하는 광고에 속지 말라는 ‘주의보’를 내렸고, 배우 에마 왓슨은 혐오 메시지를 선동하는 영상에 무단 동원되는 피해를 겪었다. 국내에서도 유명인을 사칭한 온라인 피싱 범죄가 확산돼 금융감독원이 주의를 당부하기도 했다.

오픈AI도 이러한 혼란을 우려해 보이스엔진 기술의 대규모 배포는 당분간 하지 않겠다고 밝혔다. 오픈AI 측은 “(11월 미 대선 등) 선거가 있는 해에 사람 목소리를 닮은 AI가 가져올 리스크를 잘 인식하고 있다”며 “정부, 미디어, 엔터테인먼트, 교육, 시민사회 등 다양한 분야와 협력해 그들의 피드백을 반영해 개발해 나가겠다”고 밝혔다. 또 “사회가 음성 복제 기능에 적응할 수 있는 방법에 대한 대화를 시작해 달라”고 요청했다.

#챗gpt #음성복제 #딥페이크

뉴욕=김현수 특파원 kimhs@donga.com
이지윤 기자 asap@donga.com