21일 경기 수원시 광교에 자리한 서울대 융합과학기술대학원의 한 실험실. 스피커에서 가수 BMK의 ‘꽃피는 봄이 오면’이 흘러나왔다. 그런데 목소리가 달랐다. 독특한 목소리와 창법으로 인기를 얻고 있는 실력파 가수 선우정아의 목소리가 분명했다. 이주헌 연구원이 예상치 못한 설명을 했다.
“선우정아는 이 노래를 부른 적이 없습니다. BMK의 곡을 인공지능(AI)을 이용해 선우정아의 목소리로 부르게 한 것이죠.”
이 노래만이 아니었다. 아이유의 ‘밤편지’는 박효신의 목소리로 재탄생했다. 반대로 박효신의 ‘야생화’는 아이유의 목소리로 바뀌었다. 퀸의 ‘보헤미안랩소디’를 고 김광석 목소리와 창법으로 부르게 하기도 했다.
“’가창음성합성(SVS) 시스템’이라고 이름 붙인 연구용 AI입니다. 가사와 음의 높낮이(피치)를 입력하고 원하는 가수의 목소리를 넣으면 AI가 그 가수의 창법과 음색으로 노래를 바꿀 수 있지요.”
이 연구원이 자리를 옮겨 이번에는 모니터를 보여줬다. 화면에는 인체의 주요 큰 관절과 뼈를 직선으로 묘사한 그래픽 인간이 팔다리를 움직이며 춤을 추고 있었다. 춤과 관련이 적은 머리는 없었고, 섬세한 표현에 필요한 손가락은 다섯 손가락 모두 관절까지 묘사돼 있었다. 이 연구원은 “가수 청하의 ‘벌써 12시’의 안무를 추출한 그래픽”이라며 “유튜브 영상 100개에서 이런 식으로 안무를 추출해 어떤 노래를 주더라도 자동으로 안무를 창작하는 AI를 만들었다”고 말했다. LG전자와 함께 연구 중인 이 기술은 안무가의 창작에 도움을 줄 수 있을 것으로 기대된다. 이 연구원은 “최근까지 융합과학기술대학원이 가장 앞서서 논문을 내는 등 기술을 선도해 왔는데, 최근 엔비디아가 보다 높은 완성도를 갖는 안무 생성 AI인 ‘댄싱투뮤직’을 다음 달 학회에서 공개할 예정인 것으로 알려져 긴장하고 있다”고 말했다.
청각 AI의 약진이 최근 거세다. 2016년 ‘알파고 쇼크’ 이후 전 세계적으로 딥러닝을 활용한 AI 기술 경쟁이 뜨겁지만 사진이나 영상 등 시각 정보를 활용한 AI의 발전 속도에 주로 집중돼 왔다. 실존하는 사람이 실제로 촬영한 적 없는 영상을 감쪽같이 합성하는 ‘딥페이크’ 같은 기술까지 나왔다. 세상에 존재하지 않는 사람의 얼굴 사진을 대거 만들어내는 AI도 있다.
반면 청각 AI는 음성명령 등 실생활에 응용될 분야가 많음에도 ‘화려한’ 시각 AI에 비해 상대적으로 주목을 덜 받아 왔다. 하지만 최근 국내 대학과 기업이 연구 성과를 내고 이 분야에 뛰어드는 스타트업도 나오면서 AI의 새 흐름을 만들고 있다.
최근 청각 AI 연구는 소리를 인식하고 합성하는 데 초점이 맞춰져 있다. 특히 소리 합성을 하면서 감정 등 표현력을 더하는 기술이 개발되고 있다. 네이버 클로바가 400개 문장(40분 분량)의 녹음만으로 사람에 가까운 고품질의 음성을 합성할 수 있는 NES를 14일 공개한 게 대표적이다. 김재민 네이버 클로바 보이스 책임리더는 “기쁨 슬픔 등 기본 감정 외에 엄격한 뉴스 앵커 목소리, 부드러운 친구 목소리 등 다양한 감정과 스타일도 가능해질 것”이라고 말했다. 이 분야에서는 네오사피엔스 등 스타트업도 최근 등장해 활약하고 있다.
음향 연구도 조금씩 성과를 내고 있다. 주로 외부 소음을 포착하고 해석하는 데 AI를 활용한다. 이 연구원은 “자동차에서 음성명령을 내리는 순간 구급차가 지나가면 인식률이 급격히 떨어지는데 이를 감지해 인식률을 높이는 연구가 최근 활발하다”고 말했다. 이 연구원이 속한 이교구 교수 연구실 출신 연구자들은 최근 ‘코클리어닷에이아이’라는 스타트업을 만들어 각종 환경 소음을 사람처럼 듣는 AI 기술을 개발하고 있다. 공장이나 가전제품이 고장 났을 때 오직 소리만으로 문제를 진단하는 기술도 있다. 이 연구원은 “세탁기 등 가전제품의 소음만 듣고 어떤 부품이 고장 났는지 95% 이상의 정확도로 진단하는 기술을 개발했다”고 말했다.
이렇게 다양한 청각 AI를 연구하고 있지만 이 연구원이 가장 주목하는 것이 ‘노래’다. 대표적인 게 바로 선우정아나 아이유의 목소리로 노래를 합성한 SVS다. 이 분야는 AI의 발음이 좋지 않다는 고질적인 문제가 있었는데, 이 연구원팀이 최근 성대와 입이 구분돼 있는 인체 구조를 반영한 새 AI를 내놔 이 문제를 해결했다.
시각 AI에서는 최근 본인의 동의를 얻지 않은 채 다른 영상에 연예인의 얼굴을 합성한 딥페이크 영상이 사회 문제로 떠오르기도 했다. 청각 AI에 이런 문제는 없을까. 이 연구원은 “아직은 연구용 수준이라 큰 문제가 없지만 윤리 문제도 함께 고민하고 있다”며 “아무리 감쪽같더라도 진짜 사람의 목소리와 합성한 목소리를 데이터로 구분할 수 있도록 진단 알고리즘 및 워터마크를 넣는 기술 등이 현재 전문가 사이에서 함께 연구되고 있다”고 말했다.
댓글 0