요즘 짧은 영상들을 보다 보면 같은 말투의 AI 음성을 하루에도 몇 번씩 듣게 된다. 이 인공지능 음성은 짧은 자극에 최적화된 SNS 소비 방식과 맞물리며 몇 초 만에 웃음이나 반응을 끌어내는 장치로 작동한다. 틱톡과 릴스, 유튜브 쇼츠 등 짧은 영상 플랫폼을 중심으로 이런 형식의 콘텐츠가 빠르게 퍼지고 있다. ● “이목 끄는 치트키”…제작자들이 TTS를 쓰는 이유
TTS(Text-to-Speech)는 텍스트(글자)를 음성(소리)으로 변환해주는 기술이다. 최근 쇼츠에 많이 들리는 특정 말투의 TTS 음성은 중국 바이트댄스가 운영하는 영상 편집 앱 CapCut에서 제공하는 TTS 기능 가운데 하나다.
짧은 문장을 과장된 억양으로 읽어주는 방식으로 밈처럼 소비되고 있다. 미국 시장조사업체 Backlinko에 따르면 2025년 10월 기준 캡컷은 구글 플레이와 iOS 앱스토어를 합산해 전 세계에서 다운로드 수가 가장 많은 앱 9위에 올랐다.
특정 음성이 빠르게 확산될 수 있었던 배경에는 이미 대규모 이용자를 확보한 편집 플랫폼의 존재도 작용했다는 분석이 나온다.
실제 콘텐츠 제작자들 사이에서도 인공지능 음성의 필요성이 공유되고 있다. 여행 관련 콘텐츠를 제작하는 팔로워 약 8만8000명의 인스타그래머 A 씨는 “유행에 탑승했다“며 ”해당 TTS가 사람들 이목을 집중시키는 일종의 ‘치트키’처럼 느껴졌다”고 전했다.
이어 “더빙에 재능이 없거나 애매하게 할 바에는, 이미 익숙한 목소리를 활용해 재미있게 전달하는 편이 효과가 좋다“고 덧붙였다.
● 몇 초 만에 웃기는 구조…짧은 자극에 최적화
이런 콘텐츠는 짧은 시간 안에 자극을 전달하는 데 최적화돼 있다. 복잡한 맥락 설명 없이도 억양만으로 재미를 끌어낼 수 있다. 제작자 입장에서는 얼굴이나 실제 목소리를 드러내지 않아도 되고, 시청자는 별다른 집중 없이도 내용을 소비할 수 있다는 점에서 접근성이 높다.
다만 확산 속도가 빠른 만큼 피로도도 함께 나타나고 있다. 온라인 커뮤니티와 댓글에서는 “처음엔 신선했지만 영상마다 비슷하다” “말투만 남고 내용은 잘 기억나지 않는다”는 반응도 적지 않다. 짧고 강한 자극에 익숙해질수록 같은 방식의 콘텐츠가 빠르게 소모되는 구조다. ● “매끄럽지만 개성은 없다”…AI 음성 쇼츠의 명암
전문가들은 짧은 자극에 맞춰 설계된 플랫폼 환경과 쇼츠의 일회성 소비 특성이 AI 음성 활용을 늘리고 있다고 본다.
윤석진 충남대 국어국문학과 교수는 “AI 음성으로 제작한 짧은 콘텐츠가 범람할 경우, 쇼츠 콘텐츠의 강점으로 꼽히는 정보의 응축성이나 촌철살인 같은 매력이 빠르게 소모될 수 있다”고 지적했다.
김헌식 대중문화 평론가는 인공지능 음성에 대해 “천편일률적으로 작동할 뿐, 서사에 맞는 능동성은 제한적”이라고 평가했다.
김 평론가는 “짧은 동영상 환경에서는 텐션을 끌어올리고 자극을 주는 역할로 초반 호기심을 유도할 수 있다”면서도 “기계 음성인 만큼 사람의 실제 목소리에 비해 매력과 개성은 떨어진다”고 말했다. 이어 “매끄럽고 무난하지만 반복 노출될 경우 피로도가 높아질 수 있다”고 덧붙였다.
