2일(현지 시간) 스페인 바르셀로나 ‘모바일월드콩그레스 2026(MWC26)’ 퀄컴 부스에서 스마트글라스를 쓴 채 눈앞의 음료 통을 캡처하고 “이게 무엇이냐”고 묻자 돌아온 답이다. 안경테에 탑재된 퀄컴 스냅드래곤 증강현실(AR)·웨어러블 전용 칩셋(NPU)이 음성과 시각 정보를 처리한 뒤, 휴대전화를 통해 검색증강생성(RAG) 기법으로 최적의 답을 내놓는 방식이다.
인공지능(AI)이 화면 밖 현실로 나오는 ‘피지컬 AI’의 관문, 시각언어모델(VLM)이 구현되는 장면이다. VLM은 시각 정보를 언어로 변환해 물리적 행동으로 잇는 VLA(비전·언어·행동) 기술의 뼈대다. 퀄컴이 전시장 한편에 샤오미 스마트글라스 등 사물인터넷(IoT) 기기를 대거 배치한 것도 제조사 대상 내장형 AI 소프트웨어 선점하려는 포석으로 읽힌다.
이날 피지컬 AI로 가장 많은 인파를 끌어모은 곳은 중국 업체 부스였다. 아너의 ‘로봇 폰’은 후면 초소형 짐벌 카메라가 스스로 관람객 동선을 쫓으며 최적 구도로 촬영하고, 질문에는 내부 VLM이 시청각 정보를 즉각 처리해 답하며 카메라 관절을 끄덕이는 물리적 교감까지 구현했다. ZTE 역시 진화된 휴머노이드 로봇을 전면에 내세우며 중국이 VLM 기반 하드웨어 융합을 주도하고 있음을 보여줬다.
한국 기업은 토종 파운데이션 모델로 맞불을 놨다. LG AI연구원은 이번 MWC에서 시각 지능으로 현실을 이해하는 차세대 모델 ‘엑사원 4.5’의 상반기 공개를 예고했다. 한국형 휴머노이드·실행형 AI의 초석을 다지겠다는 구상이다. 임우형 LG AI연구원 공동연구원장은 “AX(AI 전환) 단계를 넘어 실세계에서 실질적 가치를 창출하고, 글로벌 최고 수준의 성능과 인프라 효율성을 증명하겠다”고 밝혔다.
