AI가 개를 사람이라 부르지 않게 하려면…‘#태그’ 라벨링부터 [신무경의 Let IT Go]

동아일보
입력 2020년 9월 4일 14시 00분

신무경 기자

코멘트: 개

좋아요: 개

코멘트: 개

김현수 슈퍼브에이아이 대표 인터뷰
AI 개발의 시작점은 데이터를 정제하는
라벨링 작업서 시작…사업 기회 엿봐
삼성, LG도 고객사…美서도 성장할 것

사진 속 강아지가 진돗개인지 치와와인지 우리는 쉽게 구분한다. 진돗개와 치와와를 직간접적으로 만나면서 자연스럽게 학습한 결과다. 그컴퓨터도 강아지 종을 곧장 구분할 수 있을까. 아니다. 사람들이 그러했듯 컴퓨터도 학습해야만 한다.

컴퓨터가 강아지 종을 구분하려면 무수한 사진들, 즉 데이터가 필요하다. 사진 속에는 개도, 개 껌도, 개 주인도 있을 것이다. 컴퓨터는 사실 이조차도 구분해낼 능력이 없다. 이런 비정형 데이터에 영역 표시를 한 뒤 #개 #개 껌 #개 주인과 같은 태그를 달아줘야만 비로소 컴퓨터는 학습을 할 수 있다. (개 주인을 개라고 부르는 참사가 발생하지 않으려면!)

이렇듯 텍스트 이미지 오디오 등 비정형 데이터에 이름표를 달아주는 작업을 ‘데이터 라벨링’이라 부른다. 인공지능(AI) 개발의 시작은 데이터 라벨링으로부터 시작한다고 해도 과언은 아니다. 그럼 데이터 라벨링은 어떤 소프트웨어로 작업해야 할까. 한컴오피스, 마이크로소프트(MS) 오피스 365와 같은 데이터 라벨링 프로그램은 없을까.

김현수 슈퍼브에이아이 대표(30·사진)는 이 지점에서 사업 아이디어를 떠올렸다. “많은 회사들이 AI 전문 인력을 자율주행, 음성인식 등 최전방의 개발에 투입해요. 저희는 후방에서 데이터를 관리하는 서비스죠. 구글, 애플, MS 같은 회사들은 자체적으로 이런 데이터 관리 소프트웨어를 갖추고 있어요. 그런데 나머지 회사들은 어떨까요. 저희는 그런 고객들을 대상으로 서비스를 제공합니다.”

김 대표가 사업 아이디어를 괜히 떠올린 건 아니다. SK텔레콤 T-브레인 인공지능 리서치 엔지니어 시절 AI 개발에 불편함을 많이 느꼈다. 대학에서는 오픈소스(무료 소프트웨어) 연구용 데이터로 논문을 쓴다면, 회사에서는 연구용 데이터가 아닌 실 데이터를 사용해야만 했다. 실 데이터를 사용하려면 수집, 가공, 관리가 필요한데 여기에 너무 많은 시간이 소요됐다. 특히 데이터 라벨링이 전체 AI 개발 시간의 80%를 차지했다. “여기서 나오는 비효율만 제거한다면 AI 산업이 급속도로 발전할 수 있다고 생각했어요.” 2018년 4월, 김 대표를 포함한 5명의 슈퍼브에이아이 공동창업자들은 생각을 실행으로 옮긴다.

구체적인 상품이 나오기까지 시간은 그리 오래 걸리지 않았다. 회사 설립 5개월 만에 AI를 활용해 반자동으로 데이터 라벨링을 하는 프로그램을 만들었다. 지난해 7월에는 25억 원의 투자를 유치하기도 했다.

데이터 라벨링 서비스를 1년 반 가량 운영하다보니 시장에서 새로운 수요가 보이기 시작했다. 첫째는 협업이다. 머신러닝(기계학습)을 위해서는 데이터 라벨링 인력이 필요하고, 해당 인력을 관리할 매니저도, 이들이 만든 데이터를 가져다 연구하는 개발자도 필요했다. 이들이 유기적으로 협업을 할 수 있어야만 비로소 효율적인 기계학습이 이루어지는 것이다.

둘째는 자동화다. 데이터 라벨링부터 관리, 분석에도 자동화 요소를 넣을 수 있다고 판단했다. 이를테면 사람이 단순 반복으로 데이터에 태그를 붙이면, 제대로 작업됐는지 또 다른 사람이 일일이 확인하는 검수 작업이 필요했다. 이를 AI가 대체하도록 한 것이다.

그렇게 등장한 게 데이터의 가공, 시각화, 분석 기능을 담은 플랫폼 ‘스위트’다. 2019년 12월 선보인 이 플랫폼은 데이터 라벨러와 프로젝트 관리자, AI 리서치 엔지니어들이 데이터와 관련된 내용을 공유하고 이슈를 추적하며 소통할 수 있도록 직관적인 유저 인터페이스(UI)와 커뮤니케이션 도구를 제공하고 있다.

기존에는 수많은 라벨러들이 이메일, 엑셀, 자체 개발한 라벨링 도구 등을 중구난방 사용해왔다. 결과물을 취합하는 과정에서 생산성은 떨어졌고 오류는 잦았다. 엔지니어는 데이터 통계분석 시각화를 위해 매번 코딩을 해야 해 번거롭기도 했다.

김 대표는 스위트를 활용하고 있는 한 게임회사의 예를 들었다. “유저들이 실생활의 사진을 업로드하며 즐기는 증강현실(AR) 게임을 만든 회사에요. 이용자들이 올린 상당수의 사진에는 다른 사람의 얼굴, 타인의 자동차 번호판 등 개인정보들이 그대로 노출되어 있었습니다. 회사는 이런 정보들을 식별화할 의무가 있잖아요. 기존까지는 사람이 실시간으로 개인정보를 흐리게(블러) 처리 했는데, 이용자는 늘어나고 모니터링 인력은 늘리는데 한계가 있으니 AI로 자동화할 니즈가 생기게 된 거에요. 지금은 저희 스위트를 활용해 AI를 개발하고 있습니다.”

스위트 가격은 월 150만 원 수준. 현재까지 삼성전자, LG전자, SK텔레콤를 비롯한 국내 업체뿐만 아니라 퀄컴, 나이언틱 등 해외 기업까지 50여 곳의 고객사를 확보하며 어느 정도 성장 궤도에 올랐다. 회사 설립 후 매출이 매년 2배 이상 성장하고 있고, 지난해에는 손익분기점을 넘어섰다.

김 대표는 소프트웨어를 무료로 공개하는 플랫폼이자 개발자들의 커뮤니티가 된 ‘깃허브’처럼 데이터를 개방하고 공유하며 협업할 수 있는 플랫폼을 만들고 싶다는 꿈을 꾸고 있다. “AI를 개발하는데 데이터는 핵심 지식재산권(IP)이에요. 지금은 기업들이 데이터를 감추려고 하는데 5, 10년 뒤면 개방하고 공유하고 협업하는 분위기가 조성될 겁니다. 슈퍼브에이아이는 그런 움직임을 지원하는 회사가 되고 싶습니다.”

신무경 기자 yes@donga.com