국립국어원장 “204억 들여 AI 기반인 10억 어절 구축”

  • 뉴스1
  • 입력 2018년 12월 6일 17시 23분


코멘트

소강춘 원장 “남북 언어 통일 앞서 통합 추진”
중단됐던 말뭉치 구축 사업 10년만에 재개

소강춘 국립국어원장이 6일 취임 100일 기념 기자간담회에서 중점 추진 사항에 대해 설명하고 있다.
소강춘 국립국어원장이 6일 취임 100일 기념 기자간담회에서 중점 추진 사항에 대해 설명하고 있다.
“내년 한 해동안 총 204억원을 투입해 인공지능(AI) 등에 활용 가능한 국가 공공재 성격의 대규모 국어 말뭉치(Corpus)를 구축하겠습니다.”

취임 100일을 맞은 소강춘 국립국어원장(61)은 6일 서울 종로구 한 식당에서 기자간담회를 열고 이 같은 내년 중점 추진 사항을 발표했다.

컴퓨터로 가공, 처리, 분석할 수 있도록 저장된 언어 자료인 말뭉치 구축사업은 1998~2007년 진행한 후 10년 넘게 중단됐다. 당시 세종 말뭉치는 2억 어절을 구축, 현재까지 사용되고 있다.

하지만 10년 간 급속도로 변화한 언어와 기술 환경과 저작권 문제에 대응하기에는 턱없이 부족한 상황이다. 현재 일본의 경우 150억 어절, 중국은 800억 어절, 미국은 3000억 어절 정도를 구축했다.

이에 국립국어원은 내년까지 10억 어절, 10년 동안 150억 어절을 구축한다는 목표이다. 또 저작권 문제를 해결해 중소 업체에서도 쉽게 사용·활용할 수 있도록 할 계획이다.

소 원장은 남북언어 이질화 문제에 대해서는 “남북언어 통일은 굉장히 어렵지만 언어자료를 통합하는 것은 어렵지 않다”면서 “내년부터 시작해서 틀을 잡으려고 한다”고 말했다.

특히 남북 간 큰 차이를 보이고 있는 경제·의학, 농수산·산업·건설, 행정·법률 등 분야별 남북 전문용어 구축을 위한 연구를 추진할 예정이다. 또 북한어 말뭉치 구축 등 한민족 언어 자료 수집과 언어 통합 연구를 진행한다.

이밖에도 누구나 쉽게 정보를 생산, 유통할 수 있는 사회구조에 맞게 개방형 우리말 사전인 ‘우리말샘’과 국어대사전을 보완하고 전문가들도 이해하기 어려운 공공언어를 개선해 나가기로 했다. 아울러 수어나 점자 사용 환경을 개선하고 한국수어사전 정보 구축 사업도 더욱 확대할 예정이다.

(서울=뉴스1)
  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0
  • 추천해요

댓글 0

지금 뜨는 뉴스