한국 漢字자동인식기술 日수출

  • 입력 2004년 6월 18일 18시 20분


코멘트
‘고문서영상 자동인식 고속처리 시스템’이 ‘물 수(水)’자를 인식하는 화면.-사진제공 ㈜동방라이텍
‘고문서영상 자동인식 고속처리 시스템’이 ‘물 수(水)’자를 인식하는 화면.-사진제공 ㈜동방라이텍
한국의 한문 자동인식 기술이 일본으로 수출된다.

한문 사료의 디지털화 사업을 벌여온 ㈜동방라이텍이 지난해 개발한 ‘고문서영상 자동인식 고속처리 시스템’(DB idoc Reader)이 일본 도쿄(東京)대 사료편찬소의 ‘도쿠가와실기(德川實記)’ 디지털화 작업에 이용되는 것. ㈜동방라이텍은 18일 이 사업의 주무업체인 일본 퍼스널미디어와 데이터베이스 구축사업 공동 협약을 맺었다. 도쿠가와실기는 도쿠가와 막부 시대 1∼10대 쇼군(將軍)의 언행을 필사체로 기록한 516책 2000만자 분량의 역사서다. 이로써 한자 자동인식기술에 있어 한국의 독보적 우수성이 입증됐다.

한자로 기록된 고문서를 디지털화하는 작업은 한중일 모두 사람이 원본을 일일이 눈으로 확인해 옮기는 수작업으로 진행됐다. 5000만자 분량의 ‘조선왕조실록’과 ‘8만대장경’의 디지털화도 그런 수작업의 결과였다. 일부 자동화가 도입됐다 해도 하나의 한자를 선택하면 그 페이지에서 같은 한자를 컴퓨터가 인식해 제시하는 수준이었다.

동방라이텍은 1억6000만자 분량의 ‘승정원일기’ 디지털화 작업에 참여하면서 지난해 이 시스템을 개발했다. 이 시스템은 하룻밤 사이에 최대 15만자까지 스스로 인식해 처리한다. 컴퓨터가 분명히 인식하지 못한 한자는 따로 뽑아두기 때문에 사람이 이들 인식불가 한자만 처리하면 된다. 기존 방식으론 한 사람이 디지털화할 수 있는 하루 처리량이 1만5000자 분량이라는 점에서 최대 10배나 효율성이 높아진 것.

동방라이텍측은 “99.9%의 신뢰도를 바탕으로 필사체의 경우 70%, 목판의 경우 80%, 활자의 경우 95%의 한자를 자동인식해낼 수 있다”고 설명했다.

실제 매년 1600만자씩 진행되던 ‘승정원일기’ 디지털화는 지난해 하반기 이 시스템의 도입 이후 4년 치 분량이 한꺼번에 처리됐다. 사업담당자인 국사편찬위원회 박한남 편사연구관은 “처리량이 늘어났을 뿐 아니라 순도(정확도)도 상당히 향상됐다”고 평가했다.

권재현기자 confetti@donga.com

  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0
  • 추천해요

댓글 0

지금 뜨는 뉴스