말 한 마디로 만드는 나만의 곡, 구글 음악 생성 AI ‘리리아 3’ 써보니

필자는 유년 시절 10년 가까이 피아노를 배웠다. 그러나 악기를 다루는 것과 무에서 유를 창조하는 작곡은 다른 영역이다. 최근 생성형 AI가 음악, 미술 등 예술 영역에 들어오면서 텍스트 입력만으로 원하는 분위기의 음악을 쉽게 만들어내는 모습은 그 자체로 놀라움을 준다.

구글은 생성형 AI ‘제미나이(Gemini)’ 출시 이후, 이미지와 동영상을 통해 이용자의 창의성을 돕는 도구들을 꾸준히 선보여왔다. 지난 2월 19일에는 최신 음악 생성 모델 ‘리리아 3(Lyria 3)’의 베타 버전을 공개했다. 리리아 3는 텍스트나 이미지 한 장만 있으면 누구나 30초 분량의 나만의 곡을 손쉽게 완성할 수 있도록 돕는다.

구글 딥마인드가 음악 생성 AI 모델 리리아 3를 공개했다 / 출처=구글 제미나이

리리아는 구글 딥마인드가 개발한 음악 생성 AI 모델이다. 2023년 첫 공개 당시 고품질 음악 생성과 보컬·악기 표현으로 주목받았고, 리리아 2에서 장르 표현력과 음질이 정교해졌다. 또한 리얼타임(RealTime) 기능이 추가되면서 실시간으로 음악을 생성할 수 있게 됐다. 구글의 ‘뮤직 AI 샌드박스(Music AI Sandbox)’와 같은 전문가용 음악 제작 플랫폼에도 통합됐다.

광고 로드중

이번 리리아 3도 전작 대비 고도화됐다. 프롬프트를 기반으로 가사가 자동 생성되고, 스타일·보컬·템포 등 세부 요소 조절이 더 정교해졌다. 전반적인 음질과 음악적 완성도가 향상됐다. 현재 리리아 3는 한국어를 포함한 8개국 언어로 이용 가능하며, 데스크톱 버전을 시작으로 모바일 앱에 순차 도입된다.

직접 만들어 보니…텍스트 한 줄로 고품질 음악

작곡 과정은 매우 간단하다. 제미나이 채팅방 하단의 ‘음악 만들기’를 선택하고, 가사 주제와 보컬 스타일을 입력한다. “피곤할 때 듣기 좋은 차분하면서도 힘을 북돋아주는 어쿠스틱 기타 연주가 섞인 피아노 곡”이라고 입력하자, 불과 몇 초 만에 보컬과 악기가 어우러진 트랙이 완성됐다. 나노 바나나(Nano Banana)로 생성된 커버 이미지도 함께 만들어준다.

텍스트만으로 완성도 있는 음악과 커버 이미지를 생성한다 / 출처=구글 제미나이

이렇게 텍스트만을 입력해도 꽤 훌륭한 음악을 생성해준다. 여기에 장르, 속도, 강약, 악기 등 세부 요소를 구체적으로 작성하면 완성도를 더 높일 수 있다. 가사는 직접 작성하거나, 주제를 설명하면 도움을 받을 수 있다. 보이스의 성별과 음역대, 음색 등을 프롬프트에 적으면 반영한다. 또한 템플릿 기능을 활용하면 90년대 랩, 라틴 팝, K팝 등 특정 장르를 지정할 수 있다. K팝을 선택하고, 요청을 입력하니 장르 특성에 맞는 템포와 음색을 짚어냈다.

다만 생성된 곡을 수정하는 과정에는 아직 한계가 있다. 서정적인 여성 보컬 곡에서 목소리를 빼달라고 요청하자, 반주 형태는 유지됐으나 멜로디 자체가 바뀌어 버렸다. 기존 오디오 편집 프로그램처럼 특정 트랙만 ‘음소거(Mute)’ 하는 방식이 아니라, 새로운 조건에 맞춰 곡을 처음부터 다시 생성하기 때문이다. 원곡의 뼈대를 고정한 채 세부 요소만 교체하는 것은 향후 개선해야 할 과제로 보인다.

광고 로드중

이미지를 기반으로 음악을 만드는 기능도 흥미롭다. 반려동물이나, 자연물 등 이미지를 올리고 묘사하면 AI가 사진의 분위기를 분석해 어울리는 음악을 생성한다. 나노 바나나로 재미있게 이미지를 만들어 활용할 수도 있다.

생성된 결과물은 전반적으로 음질이 깨끗하고, 목소리도 또렷하게 들렸다. 다만 자동 생성된 가사는 프롬프트 의도에는 맞지만, 주관적으로 어색하다고 느끼는 부분이 있었다. 그래서 보컬 트랙이 없는 곡의 완성도가 더 높다고 느껴졌다. 만약 드러내고 싶은 내용이 있다면 직접 가사를 입력하는 게 완성도를 높일 수 있는 방법이다.

30초라는 시간 제한과 무료 버전의 생성 횟수 제한(일 최대 10개)은 아쉽다. 유료 사용자는 요금제에 따라 하루 20~100곡까지 생성 가능하다. 전문적인 창작물이라고 하기는 어렵지만, 숏폼 콘텐츠 배경음악이나 SNS 공유용, BGM 등으로는 충분히 쓸 만하다.

저작권 우려 불식… 신스ID로 투명성 확보

광고 로드중

AI 작곡에서 가장 우려되는 지점은 저작권이다. 구글은 이를 방지하기 위해 생성된 모든 음원에 디지털 워터마크인 ‘신스ID(SynthID)’를 적용했다고 밝혔다. 사람 귀에는 들리지 않지만 시스템상으로는 AI 생성물임을 식별할 수 있는 디지털 워터마크다. 인간 창작자의 권리를 보호하고 투명성을 높이기 위한 조치다.

또한 구글은 특정 아티스트의 스타일을 그대로 모방하는 것을 방지하기 위해, 유명 가수의 이름을 입력해도 이를 광범위한 영감으로만 활용하며 기존 콘텐츠와의 유사성을 검사하는 필터를 운영 중이다. 사용자는 지식재산권 및 개인정보 보호 권리 침해를 금지하는 구글의 서비스 약관 및 생성형 AI 금지 사용 정책을 준수해야 한다.

뮤직 AI 샌드박스의 인터페이스 애니메이션 / 출처=구글

한편, 현재 음악 AI 시장에는 수노(Suno), 유디오(Udio), 포자랩스(Pozalabs) 등 경쟁자들이 있다. 구글 리리아를 포함한 대다수 서비스는 완성된 음원 전체를 한 번에 만들어내는 방식으로, 사용법이 쉽고 결과물의 완성도가 높아 일반 사용자에게 쓰이고 있다.

하지만 이는 만들어진 곡을 세부적으로 수정하기 어려운 한계가 있었다. 이에 최근 업계에서는 AI와 인간이 긴밀히 소통하는 협업 체계를 구축하는 추세다. 대표적으로 포자랩스는 미디(MIDI) 기반 음원 데이터를 생성하는 방식을 채택했다. 악기나 특정 구간 수정 작업이 자유로워 고객 피드백을 반영해 음악을 세밀하게 조정할 수 있다. AI가 음원 초안을 생성하면 전문 작곡가가 리터치 작업을 거쳐 최종 곡을 완성하는 식이다.

구글 또한 완성된 음악을 생성하는 서비스뿐만 아니라, ‘뮤직 AI 샌드박스’를 통해 전문 작곡가의 음악 생성과 편집을 지원함으로써 창작자들의 제작 과정을 돕는다. 구글은 “AI가 인간의 창의성을 대체하는 것이 아니라 향상시키는 도구”라고 강조하며, “실제 예술가들과 긴밀히 협력하며 피드백을 수집하고, 창작자들의 우려를 해소하는 데 주력하고 있다”고 말했다.

IT동아 김예지 기자 (yj@itdonga.com)

말 한 마디로 만드는 나만의 곡, 구글 음악 생성 AI ‘리리아 3’ 써보니

트랜드뉴스

연명의료 유보·중단 환자, 50만명 넘어…절반 이상이 가족 결정

日, 비용 떠안으며 주일미군 기지 ‘지하화’…韓 방위비 압박 커지나

‘오전 낮잠’ 잦은 노인, 사망률 30% 높다…낮잠이 보내는 신호

[김승련 칼럼]장동혁의 버티기, 한동훈의 패러독스

[단독]“디지털 유언장은 무효”… 68년간 손글씨만 인정

삼성전자 노조 집회날 파운드리 생산 58% 급감…“총파업시 30조 피해”

홍준표 “숙주 옮겨 다니는 에일리언 정치인, 말로가 비참할 것”

백악관 기자단 만찬서 총격음…피신 트럼프 “멋진 저녁”

백악관 만찬장 총격범은 美 명문 ‘칼텍’ 출신 31세男 콜 토마스 앨런

꼬이는 장동혁 訪美 해명…당은 “사과”, 본인은 “분명 차관보”

지금 뜨는 뉴스

마라톤 ‘마의 2시간’ 벽 깼다… 케냐 사웨, 1시간 59분 30초

‘의치한약수’ 다음 된 반도체계약학과

“트럼프가 내쫓는 엘리트 데려와라… 지금이 ‘인재 유치 황금기’”