“아이유 목소리로 노래 불러 드릴게요”

동아일보
입력 2019년 11월 25일 03시 00분

진짜보다 더 진짜 같은 ‘모창 AI’가 뜬다

21일 경기 수원시 광교에 자리한 서울대 융합과학기술대학원의 한 실험실. 스피커에서 가수 BMK의 ‘꽃피는 봄이 오면’이 흘러나왔다. 그런데 목소리가 달랐다. 독특한 목소리와 창법으로 인기를 얻고 있는 실력파 가수 선우정아의 목소리가 분명했다. 이주헌 연구원이 예상치 못한 설명을 했다.

“선우정아는 이 노래를 부른 적이 없습니다. BMK의 곡을 인공지능(AI)을 이용해 선우정아의 목소리로 부르게 한 것이죠.”

이 노래만이 아니었다. 아이유의 ‘밤편지’는 박효신의 목소리로 재탄생했다. 반대로 박효신의 ‘야생화’는 아이유의 목소리로 바뀌었다. 퀸의 ‘보헤미안랩소디’를 고 김광석 목소리와 창법으로 부르게 하기도 했다.

“’가창음성합성(SVS) 시스템’이라고 이름 붙인 연구용 AI입니다. 가사와 음의 높낮이(피치)를 입력하고 원하는 가수의 목소리를 넣으면 AI가 그 가수의 창법과 음색으로 노래를 바꿀 수 있지요.”

이 연구원이 자리를 옮겨 이번에는 모니터를 보여줬다. 화면에는 인체의 주요 큰 관절과 뼈를 직선으로 묘사한 그래픽 인간이 팔다리를 움직이며 춤을 추고 있었다. 춤과 관련이 적은 머리는 없었고, 섬세한 표현에 필요한 손가락은 다섯 손가락 모두 관절까지 묘사돼 있었다. 이 연구원은 “가수 청하의 ‘벌써 12시’의 안무를 추출한 그래픽”이라며 “유튜브 영상 100개에서 이런 식으로 안무를 추출해 어떤 노래를 주더라도 자동으로 안무를 창작하는 AI를 만들었다”고 말했다. LG전자와 함께 연구 중인 이 기술은 안무가의 창작에 도움을 줄 수 있을 것으로 기대된다. 이 연구원은 “최근까지 융합과학기술대학원이 가장 앞서서 논문을 내는 등 기술을 선도해 왔는데, 최근 엔비디아가 보다 높은 완성도를 갖는 안무 생성 AI인 ‘댄싱투뮤직’을 다음 달 학회에서 공개할 예정인 것으로 알려져 긴장하고 있다”고 말했다.

청각 AI의 약진이 최근 거세다. 2016년 ‘알파고 쇼크’ 이후 전 세계적으로 딥러닝을 활용한 AI 기술 경쟁이 뜨겁지만 사진이나 영상 등 시각 정보를 활용한 AI의 발전 속도에 주로 집중돼 왔다. 실존하는 사람이 실제로 촬영한 적 없는 영상을 감쪽같이 합성하는 ‘딥페이크’ 같은 기술까지 나왔다. 세상에 존재하지 않는 사람의 얼굴 사진을 대거 만들어내는 AI도 있다.

서울대 융합과학기술대학원 실험실에서 이주헌 연구원이 전자기타를 메고 포즈를 취했다. 노래 합성 AI를 연구 중인 이 연구원은 “연구는 모두 컴퓨터로 해서 정작 악기와는 친하지 않다”며 웃었다.

반면 청각 AI는 음성명령 등 실생활에 응용될 분야가 많음에도 ‘화려한’ 시각 AI에 비해 상대적으로 주목을 덜 받아 왔다. 하지만 최근 국내 대학과 기업이 연구 성과를 내고 이 분야에 뛰어드는 스타트업도 나오면서 AI의 새 흐름을 만들고 있다.

최근 청각 AI 연구는 소리를 인식하고 합성하는 데 초점이 맞춰져 있다. 특히 소리 합성을 하면서 감정 등 표현력을 더하는 기술이 개발되고 있다. 네이버 클로바가 400개 문장(40분 분량)의 녹음만으로 사람에 가까운 고품질의 음성을 합성할 수 있는 NES를 14일 공개한 게 대표적이다. 김재민 네이버 클로바 보이스 책임리더는 “기쁨 슬픔 등 기본 감정 외에 엄격한 뉴스 앵커 목소리, 부드러운 친구 목소리 등 다양한 감정과 스타일도 가능해질 것”이라고 말했다. 이 분야에서는 네오사피엔스 등 스타트업도 최근 등장해 활약하고 있다.

음향 연구도 조금씩 성과를 내고 있다. 주로 외부 소음을 포착하고 해석하는 데 AI를 활용한다. 이 연구원은 “자동차에서 음성명령을 내리는 순간 구급차가 지나가면 인식률이 급격히 떨어지는데 이를 감지해 인식률을 높이는 연구가 최근 활발하다”고 말했다. 이 연구원이 속한 이교구 교수 연구실 출신 연구자들은 최근 ‘코클리어닷에이아이’라는 스타트업을 만들어 각종 환경 소음을 사람처럼 듣는 AI 기술을 개발하고 있다. 공장이나 가전제품이 고장 났을 때 오직 소리만으로 문제를 진단하는 기술도 있다. 이 연구원은 “세탁기 등 가전제품의 소음만 듣고 어떤 부품이 고장 났는지 95% 이상의 정확도로 진단하는 기술을 개발했다”고 말했다.

이렇게 다양한 청각 AI를 연구하고 있지만 이 연구원이 가장 주목하는 것이 ‘노래’다. 대표적인 게 바로 선우정아나 아이유의 목소리로 노래를 합성한 SVS다. 이 분야는 AI의 발음이 좋지 않다는 고질적인 문제가 있었는데, 이 연구원팀이 최근 성대와 입이 구분돼 있는 인체 구조를 반영한 새 AI를 내놔 이 문제를 해결했다.

시각 AI에서는 최근 본인의 동의를 얻지 않은 채 다른 영상에 연예인의 얼굴을 합성한 딥페이크 영상이 사회 문제로 떠오르기도 했다. 청각 AI에 이런 문제는 없을까. 이 연구원은 “아직은 연구용 수준이라 큰 문제가 없지만 윤리 문제도 함께 고민하고 있다”며 “아무리 감쪽같더라도 진짜 사람의 목소리와 합성한 목소리를 데이터로 구분할 수 있도록 진단 알고리즘 및 워터마크를 넣는 기술 등이 현재 전문가 사이에서 함께 연구되고 있다”고 말했다.

수원=윤신영 동아사이언스 기자 ashilla@donga.com

#청각 ai #인공지능 #가창음성합성 시스템 #서울대 융합과학기술대학원