뉴스 트렌드 생활정보 International edition 매체

서울공대 도재영 교수팀, 차세대 통합 AI 파운데이션 모델 ‘Dynin-Omni’ 개발

입력 | 2026-04-08 18:35:16

차세대 통합 AI 파운데이션 모델 ‘Dynin-Omni’의 개요. 서울대 공대 전기정보공학부 도재영 교수팀 제공


 서울대 공대 전기정보공학부 도재영 교수 연구팀(AIDAS 연구실)은 글자, 사진, 영상, 소리를 하나의 모델이 동시에 이해하고 생성할 수 있는 차세대 인공지능(AI) 파운데이션 모델 ‘Dynin-Omni’를 개발했다고 밝혔다.

 연구진은 AI 모델이 다양한 감각 정보를 동시에 처리할 수 있는 구조를 설계해, 정보를 순차적으로 생성하는 기존 방식의 문제점을 해결했다고 설명했다. 글자부터 영상까지 다양한 정보를 단일 모델이 함께 처리하는 옴니모달(Omnimodal) AI를 구현했다는 설명이다.

 최근 AI는 텍스트뿐 아니라 이미지, 음성, 영상 등 다양한 형태의 데이터를 처리하는 방향으로 발전하고 있다. 다만 실제 환경에서 사람과 자연스럽게 상호작용하기 위해서는 단순 정보 인식을 넘어 복합적인 처리 능력이 요구된다. 예를 들어 음성을 인식해 이미지를 생성하거나, 영상을 분석해 음성으로 설명하는 기능은 여러 감각 정보를 동시에 활용하는 통합적 처리 구조가 필요하다.

 기존 AI 시스템은 정보 이해와 생성 기능을 분리하거나 여러 모델을 결합해 사용하는 방식이 일반적이었으며, 이로 인해 다양한 형태의 정보를 유기적으로 처리하는 데 한계가 있었다. 특히 하나의 모델이 다양한 감각 정보를 동시에 처리하고 결과를 생성하는 통합 구조는 구현 난도가 높은 과제로 꼽혀왔다.

 연구팀은 이러한 한계를 보완하기 위해 하나의 모델이 정보를 통합적으로 처리하는 구조를 설계하고, 이를 기반으로 차세대 통합 AI 파운데이션 모델 ‘Dynin-Omni’를 개발했다고 밝혔다. 해당 모델은 텍스트, 이미지, 영상, 음성 데이터를 함께 처리하며, 정보 이해와 생성 과정을 하나의 모델 내에서 수행하는 구조를 갖는다.

 Dynin-Omni의 특징으로는 먼저 다양한 형태의 정보를 하나의 기준으로 통합 처리하는 구조를 적용한 점이 꼽힌다. 기존 AI가 이미지나 음성 정보를 텍스트 중심으로 변환해 처리했다면, 해당 모델은 여러 유형의 데이터를 동일한 방식으로 처리하도록 설계됐다.

 또한 결과물 전체를 한 번에 생성한 뒤 정교화하는 디퓨전(diffusion) 방식을 적용해 처리 효율을 높이고자 했다. 이는 기존처럼 단어를 순차적으로 생성하는 방식과 비교해 대용량 데이터 처리에 적합한 구조로 설명된다.

 아울러 정보 이해와 생성 기능을 하나의 모델로 통합해, 여러 모델을 결합해 사용하는 기존 방식과는 다른 구조를 제시했다. 이를 통해 다양한 감각 정보를 연계해 처리하는 방식 구현을 시도했다는 설명이다.

 연구팀에 따르면 Dynin-Omni는 총 19개 글로벌 AI 성능 평가(벤치마크)에서 정보 추론, 영상 이해, 이미지 생성 및 편집, 음성 처리 등 다양한 영역에서 기존 통합 모델 대비 개선된 결과를 보였다. 또한 기존 통합 AI 모델 대비 생성 속도 측면에서도 향상이 관찰됐다고 밝혔다.

최용석 기자 duck8@donga.com

트랜드뉴스

지금 뜨는 뉴스