사진 입력하면 글로 설명… LG, ‘캡셔닝 AI’ 공개

  • 동아일보
  • 입력 2023년 6월 20일 03시 00분


코멘트

10초에 5개 문장-10개 키워드 생성
방대한 이미지 검색 등에 활용 전망
셔터스톡과 협업… 저작권 문제없어

LG, 이미지 설명하는 AI 공개 LG의 첫 생성형 인공지능(AI) 상용 서비스인 ‘캡셔닝 AI’ 적용 예시. 
낚시하는 모습, 북극곰, 오로라 등의 사진을 보여주면 그에 맞는 해석(문장)과 키워드를 만들어낸다. 가운데 북극곰 사진의 경우 
배경이 되는 캐나다 국기까지 인식해 ‘북극곰이 캐나다 국기 앞에 앉아있다’고 해석하고, 관련 키워드로 ‘동물(animal)’ 
‘털(fur)’ ‘북극 동물(arctic animals)’ 등을 생성했다. ㈜LG 제공
LG, 이미지 설명하는 AI 공개 LG의 첫 생성형 인공지능(AI) 상용 서비스인 ‘캡셔닝 AI’ 적용 예시. 낚시하는 모습, 북극곰, 오로라 등의 사진을 보여주면 그에 맞는 해석(문장)과 키워드를 만들어낸다. 가운데 북극곰 사진의 경우 배경이 되는 캐나다 국기까지 인식해 ‘북극곰이 캐나다 국기 앞에 앉아있다’고 해석하고, 관련 키워드로 ‘동물(animal)’ ‘털(fur)’ ‘북극 동물(arctic animals)’ 등을 생성했다. ㈜LG 제공
LG가 국제 인공지능(AI) 학회에서 사람처럼 이미지를 이해하고 설명하는 기술을 선보였다. AI가 이미지를 본 뒤 10초 만에 5개 문장, 10개 키워드를 생성하는 수준으로 방대한 양의 이미지 검색·관리 시스템을 구축하는 데 활용될 것으로 전망된다.

LG AI연구원은 캐나다 밴쿠버에서 열리는 세계 최대 컴퓨터 비전 학회인 ‘CVPR 2023’에서 ‘캡셔닝 AI’를 외부에 처음 공개했다고 19일 밝혔다. 생성형 AI를 기반으로 개발된 캡셔닝 AI는 AI가 처음 보는 이미지도 자연스럽게 설명 글로 풀어 내는 기술이다.

예를 들어 LG의 캡셔닝 AI에 아버지와 아들이 낚시하는 사진을 입력하면 ‘한 남자가 부두에서 소년과 낚시를 하고 있고, 소년은 그물로 물고기를 잡으려고 하고 있다’는 설명이 나온다. 또 사진과 관련해 ‘휴일(holiday)’, ‘여가(leisure)’, ‘행복(happy)’ 등의 키워드도 생성해 낸다.

LG AI연구원은 “AI가 기존에 학습한 대량의 이미지와 텍스트 데이터를 기반으로 배경, 인물, 행동 등 다양한 요소와 특징을 인식한다”며 “사람처럼 처음 보는 물체나 장면을 이전의 경험과 지식을 활용해 이해하고 설명할 수 있는 이유”라고 설명했다.

LG AI연구원은 캡셔닝 AI 개발을 위해 세계 최대 이미지·영상 플랫폼 셔터스톡과 협력했다. 셔터스톡이 보유한 이미지 분류, 문장 표현 등 노하우를 바탕으로 데이터 학습, 서비스 개발의 완성도를 높인 것이다. 특히 신뢰할 수 있는 AI 모델 개발을 위해 학습 데이터의 편향성, 선정성 등 AI 윤리 검증을 진행했고 저작권 투명성도 확보했다고 강조했다.

세잘 아민 셔터스톡 최고기술책임자(CTO)는 “현재 글로벌 고객사 10곳을 대상으로 ‘얼리 액세스(앞서 해보기)’ 프로그램을 진행하며 기술을 발전시켜 나가고 있다”며 “캡셔닝 AI를 통해 사람들이 더 본질적이고 창의적인 일에 집중할 수 있도록 도울 것”이라고 강조했다.

LG AI연구원은 행사 중 서울대 AI 대학원, 셔터스톡과 함께 캡셔닝 AI 기술과 관련한 워크숍도 진행했다. 이미지 캡셔닝 분야 세계 전문가들이 참여해 심도 있는 논의를 나눴다. LG전자, LG이노텍, LG에너지솔루션 등 LG 주요 계열사들과 함께 글로벌 인재 확보에도 나선다. 19일 네트워킹 행사를 열고 20일부터 3일 동안 각 계열사 구성원들이 LG 통합 부스에서 최신 기술 시연과 채용 상담을 진행할 계획이다.

박현익 기자 beepark@donga.com


#lg#캡셔닝 ai
  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0
  • 추천해요

댓글 0

지금 뜨는 뉴스