AI에게 ‘맘마’ ‘멍멍이’부터 가르치면…

동아일보

실제 아이가 보고 들은 자료로
사람이 말 배우듯 AI에 교육
인간과 비슷한 언어 능력 구사
언어 습득 메커니즘 규명 기대

아기의 눈과 귀를 통해 언어를 학습한 AI 모델이 등장했다. 사진 출처 위키미디어

한 명의 아이가 자라면서 얻는 시각 정보와 음성 정보만을 학습한 인공지능(AI) 모델이 나왔다. 인간이 어떻게 언어를 학습하는지 연구하는 도구로 활용될 수 있을 전망이다.

브랜던 레이크 미국 뉴욕대 심리학·데이터과학과 교수 연구팀은 한 아이가 보고 들은 내용을 토대로 한 AI 시스템을 개발하고 1일(현지 시간) 국제학술지 ‘사이언스’에 발표했다.

거대언어모델(LLM)인 챗GPT와 같은 AI 시스템은 아이들이 언어를 습득할 때와는 비교가 안 될 정도로 많은 양의 단어를 입력받아 학습한다. 아이들이 1년에 수백만 개의 단어를 접한다면 LLM에는 조 단위의 단어가 입력된다.

이 같은 차이 때문에 AI가 인간의 뇌를 모방한 시스템이어도 AI의 학습 과정을 통해 인간의 학습 경로를 파악하기는 어렵다. AI를 통해 인간의 언어 학습 과정을 이해하려면 한꺼번에 많은 양의 데이터가 입력되는 AI 시스템이 아니라 한 명의 아이로부터 입력받은 데이터만으로 학습 훈련을 한 AI 모델이 필요하다.

연구팀은 한 아이의 학습 데이터만 입력되는 AI 모델을 만들기 위해 생후 6개월 아이가 두 번째 생일을 맞을 때까지 헤드캠으로 영상 녹화를 했다. 헤드캠은 머리에 착용해 1인칭 시점에서 촬영할 수 있는 카메라다. 아이가 머리에 착용하면 아이의 눈과 귀를 통해 보고 들은 내용을 담을 수 있다.

연구팀은 생후 6∼25개월 아이가 깨어 있는 시간의 약 1%를 아이의 시선에서 헤드캠으로 녹화했다. 영상에는 동일 단어의 반복 등장을 포함해 총 25만 개의 단어가 녹음됐다. 단어가 녹음되는 동안 아이의 시선으로 바라본 사물 등 시각적인 정보도 저장됐다. 식사 시간, 놀이 시간, 독서 시간 등 성장 과정에 걸친 다양한 활동에서 발생한 정보들이다.

연구팀은 녹화한 내용을 AI 모델에 학습시켰다. 2개의 분리된 모듈로 멀티모달 신경망 훈련을 진행했다. 멀티모달 신경망은 텍스트만이 아니라 음성, 이미지 등도 처리할 수 있는 신경망을 의미한다. 하나의 모듈에는 시각 정보인 촬영 영상 프레임을 훈련시켰고 다른 하나는 음성 정보인 녹음된 ‘아동 지향어’를 학습하도록 했다. 아동 지향어는 ‘맘마’, ‘멍멍이’처럼 아기들만 사용하는 단어로 구성된 화법을 의미한다.

연구팀은 AI가 시각 정보와 음성 정보의 연관성을 학습할 수 있도록 ‘대조학습’이라고 불리는 알고리즘으로 결합 훈련도 진행했다. 부모가 아이에게 말한 아동 지향어는 아이의 시점에서 바라본 사물을 의미할 가능성이 높다는 점에서 시각 신호와 언어 신호를 연결해 개념을 이해하도록 학습시킨 것이다. AI는 반복적인 대조학습을 통해 어떤 단어가 어떤 시각적 정보와 연관되는지 학습했다.

훈련을 마친 뒤 연구팀은 AI 모델에 테스트를 진행했다. 유아의 단어 학습 능력을 측정할 때 사용하는 테스트를 보도록 한 것이다. 단어 하나와 이미지 4개를 제시한 뒤 해당 단어와 일치하는 이미지를 선택하도록 하는 테스트였다.

시험 결과 AI는 단어와 이미지를 올바르게 연결하는 결과를 보였다. AI는 아이의 시각에서 얻은 정보만으로 단어와 그에 상응하는 시각적 대응물을 연결하는 언어 학습 능력을 보인 것이다. 레이크 교수는 “아이들이 단어를 학습할 때 어떤 요소들이 필요한지에 대한 고전적인 논쟁이 있는데 AI 모델로 해결해 나갈 수 있을 것으로 보인다”며 “AI 모델에 더 많은 학습을 시키면 더 많은 의구심을 해소할 수 있을 것”이라고 말했다.

#ai #맘마 #멍멍이

문세영 동아사이언스 기자 moon09@donga.com