읽기모드공유하기
동아일보|경제

“손 대신 목소리로 터치… 한국어 음성 데이터로 영어합성”

입력 2020-04-09 03:00업데이트 2020-04-09 09:52
글자크기 설정 레이어 열기 뉴스듣기 프린트
글자크기 설정 닫기
[미래 개척하는 청년창업가들] <4> ‘라이언로켓’ 정승환 대표
멀리 떨어져 사는 가족의 목소리가 매일 아침 나를 깨우고, 배웅한다. 내가 좋아하는 연예인이 내 질문에 대답하며 나와 자유롭게 대화한다. 따로 녹음한 음성을 재생하는 것이 아니라, 그때그때 내가 원하는 말을 들을 수 있다.

공상과학(SF) 소설 속에서나 나올 법한 세상을 꿈꾸는 청년이 있다. 딥러닝 기술을 기반으로 한 음성합성 기술을 연구하는 라이언로켓 정승환 대표(28)에게 사람의 목소리는 손으로 하는 ‘터치’를 대체하는, 인간과 기술을 이어주는 새로운 인터페이스다.

정 대표는 한양대 정보시스템학과 학부생 시절이던 2018년 처음으로 라이언로켓 프로젝트에 착수했다. 10대 시절부터 창업이 꿈이었던 그는 시각장애인을 위한 오디오북이 비싼 제작비용 때문에 턱없이 부족하다는 점에서 사업 아이디어를 얻었다. 딥러닝 기술에 기반한 음성합성 기술이라면 저렴한 비용으로 오디오북을 많이 제작해 장애인에게 도움이 될 거라고 생각한 것이다.

인공지능(AI) 관련 경험은 없었던 정 대표는 대학 동기들과 함께 말 그대로 ‘맨땅에 헤딩’을 시작했다. 특정 인물의 목소리, 말투까지 완벽에 가깝게 모사할 수 있는 수준의 음성합성 프로그램을 개발하기 시작했다. 딥러닝 기술은 개발과정에서 GPU(AI 연산에 활용되는 반도체) 등 고가 장비가 필수적이다. 정 대표는 “한 사람당 1만 원씩 모아 장비를 하루씩 대여해 프로그램을 테스트했다”며 “사무실이 없어 카페에서 회의를 하며 한때 프로젝트가 중단될 뻔한 적도 있다”고 했다. 이렇게 개발한 프로그램을 창업 공모전에 출품해 상금을 받고, 그 상금으로 다시 필요한 장비를 구하는 식으로 개발을 이어나갔다.

‘할 수 있다’는 가능성을 본 것은 지난해 2월 대통령의 목소리로 설날 인사를 들려주는 ‘콜미프레지던트’ 서비스를 실험적으로 제공한 뒤였다. 간단한 인사였지만 사용자가 입력한 이름을 일일이 불러준다는 점이 온라인에서 화제가 되며 설 연휴 사흘 동안 24만 명이 이용했다. 정 대표는 “음성합성 기술 자체는 과거부터 알려져 있는 기술이지만, 기계처럼 부자연스럽거나 같은 말을 반복하고, 끊기거나 잡음이 생기는 오류가 많았다”며 “이런 테스트를 통해 우리가 생성해낸 목소리가 충분히 자연스럽고 매력 있다는 점을 확인할 수 있었다”고 했다.

실제로 목소리로 지시하고 음성으로 결과를 듣는 ‘히어러블’ 시장은 AI스피커, 스마트기기에 탑재된 AI비서 등이 보편화되며 폭발적으로 성장하고 있다. S&P글로벌마켓인텔리전스에 따르면 AI스피커 관련 글로벌 시장 규모가 2017년 3조 원에서 2022년 약 10조 원 규모로 성장할 것으로 전망된다.

현재 라이언로켓은 약 20분 분량의 음성데이터만으로 무궁무진하게 목소리를 생성해낼 수 있다. 지난해부터 온라인 방송 플랫폼 ‘트위치’에서는 라이언로켓의 기술을 이용해 시청자가 기부를 할 때 유명 성우나 방송인의 목소리로 인사를 하는 서비스를 선보이고 있다. 4·15총선에서는 라이언로켓의 기술을 이용해 유명 정치인의 목소리로 개표상황을 실시간으로 들려주는 개표방송도 선보일 예정이다. 목소리가 콘텐츠인 만큼 성우 서혜정 씨, 배한성 씨 등을 포함해 성우, 유명인 30여 명과 목소리 이용 협의를 마쳤다.

지난해 12월 라이언로켓은 그동안 개발한 기술을 이용해 최초 목표였던 시각장애인용 오디오북을 3권 제작했다. 올해 1월에는 어엿한 사무실도 마련했다.

정 대표는 “처음 목표를 조금이나마 달성한 것 같아 뿌듯하면서, 더 큰 목표를 세우는 계기가 됐다”고 했다. 라이언로켓은 현재 한국어 음성 데이터로 중국어, 영어 등 외국어를 생성해낼 수 있는 기능을 준비 중이다. 현재는 책을 읽는 듯한 평이한 목소리만 만들어낼 수 있지만 화를 내거나 우는 감정까지 표현할 수 있는 기능도 구상하고 있다. 정 대표는 “이런 기능이 더해지면 더빙, 통역, 가상현실(VR) 등 사용할 수 있는 곳이 무궁무진해진다”며 “앞으로는 현재의 터치를 목소리가 대신할 수 있는 세상이 올 것”이라고 미래를 전망했다.

이새샘 기자 iamsam@donga.com
당신이 좋아할 만한 콘텐츠
댓글 0
닫기
많이 본 뉴스
최신기사
베스트 추천