솔트룩스, 국립국어원 ‘구어 자료 수집·원시 말뭉치 구축사업’ 수주

동아닷컴
입력 2019년 8월 12일 09시 00분

코멘트: 개

좋아요: 개

코멘트: 개

인공지능·데이터과학 전문기업 솔트룩스(대표 이경일)는 인공지능 산업 발전을 위한 대규모 고품질 우리말 자원 구축을 위한 국립국어원의 ‘구어 자료 수집 및 원시 말뭉치 구축 사업’을 수주했다고 12일 밝혔다.

국립국어원은 TV, 라디오 등의 구어 원자료와 드라마, 연극 대본 등의 준구어 원자료를 수집하여 말뭉치를 구축하고, 저작권 이용 계약까지 체결해 민간 활용 가치를 극대화하는 말뭉치 구축 사업을 추진 중이다.

솔트룩스 이경일 대표는 “인공지능 산업 및 국어·언어학계에 필요한 구어 말뭉치 구축을 위해 유용성 검증과 품질 확보라는 두 마리 토끼를 잡아야 한다”며 “자체 보유한 인공지능 원천 기술력과 국내 최다 인공지능 서비스 개발 경험을 통해 최상의 프로세스로 반드시 성공적으로 사업을 수행하겠다”라고 의지를 밝혔다.

솔트룩스는 2018년 자체 말뭉치 구축 전문인력을 통해 품질순도 99.9%의 국립국어원 ‘국어 말뭉치 연구 및 구축 사업’을 수행했던 경험이 있으며, 그 외에도 한국전자통신연구원(ETRI) ‘음성 DB 구축’, 한국언론진흥재단 ‘뉴스 빅데이터 시스템 구축’ 등 20년간 축적된 빅데이터 구축 경험과 4단계 품질관리 프로세스 등의 전문성을 인정받은 바 있다며 자신감을 내비쳤다.

주요 선진국과 비교해 우리나라의 언어 데이터 구축 량은 매우 빈약한 수준이다.
언어별 말뭉치 데이터를 살펴보면 영어가 2000억 어절, 중국어가 800억 어절인데 비해 한국어는 2억 어절로 영어의 1/100에 그치는 등 매우 취약한 상황으로 알려졌다.

박해식 동아닷컴 기자 pistols@donga.com