영상, 이미지, 음악 한자리서… 멀티모달 선점 구글

동아일보
입력 2026년 3월 5일 00시 30분

최지원 기자

음악생성 AI 리리아3 이어 AI음악에이전트까지 편집
‘멀티모달 생태계’ 공략… 메타, 오픈AI 등도 잰걸음

구글이 최근 음악 생성 인공지능(AI) ‘리리아3’를 출시하며 영상-이미지-음악으로 이어지는 멀티모달 생태계 구축에 나섰다. 클릭 한 번이면 노래부터 뮤직비디오, 앨범 커버까지 한 번에 제작하고 유튜브 플랫폼을 통해 유통까지 가능해지는 것이다. 업계에서는 AI 콘텐츠 생태계에서 구글의 영향력이 이전보다 더욱 확대될 것이라는 전망이 나온다.

4일 정보기술(IT) 업계에 따르면 최근 구글은 리리아3 출시에 이어 ‘AI 음악 에이전트’ 개발 기업인 프로듀서AI까지 인수하며 음악 AI 서비스 고도화에 속도를 내고 있다. 프로듀서AI는 리리아 모델을 기반으로 사용자의 요구를 음원으로 바꿔주는 중간 플랫폼 역할을 담당하게 된다. 음원 생성 후에도 “방금 만든 곡에서 드럼 소리만 더 키워줘” “후렴구는 여성 보컬로 바꿔줘” 같은 사용자의 구체적인 요구를 반영할 수 있다.

음악 콘텐츠의 경우 광고나 드라마 등 상업적인 활용 범위가 넓어 수익화의 측면에서도 큰 보탬이 될 수 있다. 소비자들의 활용뿐 아니라 기업들의 수요도 적지 않아 기업 간 거래(B2B) 시장도 노려볼 수 있는 것이다. 시장조사기관 마켓닷어스는 음악 생성 AI 시장이 2023년 2억9400만 달러(약 4235억 원)에서 2032년 26억6000만 달러(약 3조8317억 원)로 빠르게 성장할 것이라고 내다봤다.

더불어 구글은 이번 인수를 통해 영상-이미지-음악 등 멀티모달 생태계에 집중한다는 전략이다. 멀티모달은 텍스트, 이미지, 음성, 영상 등 다양한 형태의 데이터를 동시에 이해하고 처리하는 AI를 의미한다. 구글은 앞서 지난해 영상 생성 AI ‘비오3’를 출시한 바 있으며 이미지 생성 AI ‘나노바나나’를 공개했다. 두 AI 모두 구글의 AI 챗봇 ‘제미나이’에서 구동된다. 리리아3까지 합류하며 사용자는 고품질의 노래, 뮤직비디오, 앨범 커버를 모두 제미나이에서 제작할 수 있고, 이렇게 제작한 콘텐츠를 유튜브를 통해 유통할 수 있게 된다.

AI를 활용한 콘텐츠 사업이 확대됨에 따라 구글뿐 아니라 메타, 오픈AI 등 다른 글로벌 빅테크들도 멀티모달 생태계를 확대하기 위해 각축전을 벌이고 있다. 메타는 올해 상반기(1∼6월) 이미지와 영상 생성에 특화된 ‘망고’(프로젝트명)를 출시할 예정인 것으로 알려졌다. 오픈AI는 지난해 9월 영상 생성 AI ‘소라2’를 공개했으며, 이미지 생성 AI ‘달리(DALL-E)’를 고도화한 ‘GPT 이미지 1.5’도 출시했다. 구글과 마찬가지로 오픈AI의 AI 챗봇 ‘챗GPT’에서 모두 구동이 가능하다. 오픈AI는 현재 개발 중인 음악 생성 AI를 올해 1분기 선보일 것으로 알려졌다.

국내에서도 네이버와 카카오 모두 다양한 형태의 데이터를 이해하고 생성하는 멀티모달 AI 개발을 진행 중이다. 카카오의 경우 메신저 카카오톡으로 공유하는 이미지를 영상으로 만들어주는 ‘카나나 템플릿’을 올해 1월 공개했다. 네이버 역시 대규모 AI 모델 ‘하이퍼클로바X’를 기반으로 이미지 및 홍보 영상을 자동으로 생성하는 솔루션을 고도화하고 있다. 국내 AI 스타트업인 업스테이지의 경우 대량의 이미지, 영상, 텍스트 데이터를 확보하기 위해 최근 포털 사이트 ‘다음’을 인수하기로 결정한 바 있다.

#구글 #리리아3 #멀티모달

최지원 기자 jwchoi@donga.com