[신문과 놀자!/어린이과학동아 별별과학백과]시공간 제약없는 가상인간, 어떻게 진짜 사람처럼 보일까요?

  • 동아일보
  • 입력 2022년 5월 13일 03시 00분


코멘트

자연스러운 동작 위해 모션 캡처 사용, 배우 몸에 여러 개의 마커 부착
전용 카메라로 움직임 데이터 기록… 말소리 글자로 변환하는 과정인 STT
글자를 목소리로 바꾸는 TTS 거치면 대화하는 것처럼 의사소통 가능

모션 캡처로 캐릭터의 움직임을 만드는 과정. ①마커가 달린 슈트를 입은 배우가 동작을 표현한다. ②카메라가 마커를 추적한 데이터로 컴퓨터에서 뼈대를 구현한다. ③각 부위가 부피를 얼마나 차지하는지 확인한다. ④질감 등을 표현해 완성한다. 이엠피이모션캡쳐 제공
모션 캡처로 캐릭터의 움직임을 만드는 과정. ①마커가 달린 슈트를 입은 배우가 동작을 표현한다. ②카메라가 마커를 추적한 데이터로 컴퓨터에서 뼈대를 구현한다. ③각 부위가 부피를 얼마나 차지하는지 확인한다. ④질감 등을 표현해 완성한다. 이엠피이모션캡쳐 제공
소셜미디어 인플루언서, 모델, 가수, 쇼호스트, 기상캐스터…. 이 모든 일을 동시에, 어디에서나 할 수 있는 사람이 있을까요? 보통 사람이라면 불가능해 보이는 이 미션을 해결해 내는 존재가 있습니다. 바로 ‘가상 인간’입니다.
○시공간의 제약 없는 가상인간의 세계
2020년 일본에서는 ‘이마’라는 가상 인간이 가구 기업 이케아의 한 매장에서 먹고 자며 생활하는 영상을 통해 광고 모델로 활동했어요. 그 모습이 너무 자연스러워서 많은 사람이 진짜 사람인 줄 알았다는 반응을 보였지요. 일본의 이마뿐 아니라 우리나라의 ‘로지’, ‘루이’ 등 현재 활동하고 있는 가상 인간들을 보세요. 주의 깊게 관찰하지 않으면 이들이 진짜 사람이 아니라는 사실을 알아채기가 어렵습니다. 가상 인간이 처음부터 이렇게 감쪽같았던 건 아니에요. 20여 년 전 우리나라에 등장한 1호 가상 인간이자 사이버 가수인 ‘아담’을 보면 실제 사람과는 거리가 멀죠.

현재 가상 인간은 활발하게 경제 활동도 합니다. 지난해 집계된 자료에 따르면 우리나라의 가상 인간 로지는 광고 모델 활동으로 2020년 한 해 동안 약 10억 원의 수익을 올렸습니다. 인스타그램에서 300만 팔로어를 가진 미국의 가상 인플루언서 ‘릴 미켈라’는 같은 해에 무려 130억 원에 달하는 수익을 낸 것으로 알려졌어요.

가상 인간은 시공간의 제약을 받지 않습니다. 세계 어디에서나 동시에 존재하며 서로 다른 일을 할 수 있고, 나이도 먹지 않죠. 동국대 철학과 심지원 교수는 “가상 인간은 실제 연예인과 달리 건강이나 과거사 등 개인적인 문제를 일으킬 가능성이 적고, 동시에 여러 가지 일을 할 수 있는 등 효율적인 특징이 있어 기업들이 광고 모델로 선호하는 것”이라고 설명했어요. 가상 공간의 규모가 커지면서 가상 인간의 활동은 앞으로 더욱 활발해질 거예요.
○생동감 주는 모션 캡처로 탄생하는 가상 인간
이엠피이모션캡쳐 제공
이엠피이모션캡쳐 제공
가상 인간은 움직이는 모습까지도 사람과 비슷해요. 이런 얼굴 표정과 움직임은 어떻게 만드는 걸까요? 바로 모션 캡처 기술이 이용됩니다. 모션 캡처는 사전에 녹화된 배우의 움직임을 기반으로 가상의 캐릭터가 자연스럽게 움직이도록 하는 기술이에요. 이미 수많은 영화나 애니메이션, 게임에서도 흔하게 사용되고 있는 방법이죠.

가장 일반적으로 쓰이는 방식은 광학식 모션 캡처입니다. 배우 몸에 여러 개의 마커를 부착하고 움직이면, 사방에 있는 여러 대의 카메라가 마커의 위치 정보를 계산해 움직임 데이터를 기록합니다. 동시에 많은 사람의 움직임을 촬영하는 것도 가능해요. 동물이나 현실에 없는 존재는 전용 모션 캡처 슈트를 만들어 촬영하기도 하죠. 모션 캡처를 촬영하는 카메라의 해상도나 초당 인식 프레임 등 성능이 뛰어나고, 카메라 숫자가 많을수록 더 많은 인원의 동작을 더 자연스러운 움직임으로 나타낼 수 있습니다. 모션 캡처 스튜디오를 운영하는 기업 이엠피이모션캡쳐의 김진식 대표는 “모션 캡처 기술이 더 발전하면 가상 인간들이 더 정교하게 움직일 수 있을 것으로 기대한다”고 밝혔답니다.
○가상 인간과 어떻게 소통할까
아무리 사람과 똑같이 생겼더라도 가상 인간과 제대로 말이 통하지 않는다면 사람처럼 느껴지지 않을 거예요. 음성 대화는 사람의 가장 자연스러운 소통 방식이기 때문이죠. 우리가 가상 인간에게 대답을 듣기까지 가상 인간은 어떤 과정들을 거치는 걸까요?

가상 인간에 탑재된 인공지능이 사람의 말소리를 이해하기 위해서는 먼저 말소리를 글자로 변환하는 과정이 필요합니다. 이 과정을 ‘STT(Speech to Text)’라고 합니다. 마이크 같은 센서가 사람의 말소리를 인식하면, 인공지능이 소리의 파형을 분석해 글자와 단어로 옮겨요. 인공지능은 이 글자와 단어들을 기존 언어 데이터와 비교하고 처리해 최종적으로 문장을 재구성하지요. 인공지능이 언어 데이터를 많이 학습할수록 문장이 매끄러워져요.

사람이 어떤 말을 했는지 파악했으니, 이제 가상 인간이 어떻게 대답할지 결정해야 합니다. 인공지능을 활용한 언어 생성 모형은 수많은 대화 예시를 학습해서 사람이 건넨 말에 대한 가장 적절한 대답을 고릅니다. 가상 인간의 성격에 따라 특정한 말투를 사용해 말할 수도 있지요.

가상 인간이 뭐라고 대답할지 결정했다면, 이 문장을 다시 목소리로 바꾸어야 합니다. 이 과정은 글자를 음성으로 변환한다는 뜻에서 ‘TTS(Text to Speech)’라고 불러요. 대화할 때 나올 수 있는 모든 문장을 미리 녹음할 수는 없으니 어떤 글자가 나오더라도 이를 음성으로 나타낼 수 있는 음성 합성 기술이 필요합니다. 여러 가지 문장을 읽어 음성을 녹음한 뒤, 이 음성을 글자, 단어 등의 단위로 쪼개어 저장합니다. 그러면 어떤 문장이라도 저장된 음성 단위를 합쳐서 표현할 수 있죠.

지금 활동하는 가상 인간은 대부분 현실 세계에서 가상 인간을 담당하는 사람이 대신 소통합니다. 축적된 언어 데이터의 규모가 커지고 이를 분석하는 언어 생성 인공지능 기술이 발전하면 다양한 인공지능을 지닌 가상 인간이 사람들과 수다를 떨 수도 있게 될 거예요!


이병구 어린이과학동아 기자 2bottle9@donga.com
#가상인간의 세계#모션 캡처
  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0
  • 추천해요

댓글 0

지금 뜨는 뉴스