2세대 ‘우리말 큰사전’ 나온다

  • 입력 2009년 9월 24일 02시 56분


코멘트
한국어대사전 출간을 앞두고 23일 김흥규 고려대 민족문화연구원장(왼쪽에서 네 번째)과 도원영 연구교수(왼쪽에서 두 번째)를 비롯한 국어사전편찬실 팀원들이 마지막 회의를 하고 있다. 컴퓨터 화면은 국어대사전 편찬을 위해 자체 개발한 프로그램. 홍진환 기자
한국어대사전 출간을 앞두고 23일 김흥규 고려대 민족문화연구원장(왼쪽에서 네 번째)과 도원영 연구교수(왼쪽에서 두 번째)를 비롯한 국어사전편찬실 팀원들이 마지막 회의를 하고 있다. 컴퓨터 화면은 국어대사전 편찬을 위해 자체 개발한 프로그램. 홍진환 기자
신문-소설 등 문헌 DB 분석 자주 쓰이는 순서로 뜻풀이

《실제 사용 중인 낱말 데이터베이스에서 사용빈도가 높은 단어와 의미를 골라 만든 첫 한국어대사전이 17년 만에 세상에 나온다. 고려대 민족문화연구원(원장 김흥규)은 ‘코퍼스(Corpus·말뭉치) 언어학’을 기반으로 만든 ‘고려대 한국어대사전’을 10월 8일 출간할 예정이다. 이 사전은 1992년 9월 편찬 준비 작업이 시작됐으며 17년 만에 완성되는 것이다.》

고려대 민족문화연구원 내달 ‘한국어대사전’ 출간
표제어 38만7000여 개 대사전으론 국내 최초

말뭉치 기반 한국어대사전은 신문 소설 책 등 실제 문헌의 데이터베이스에서 자주 사용하는 언어를 중심으로 표제어와 용례를 만들어 현실 언어를 충실하게 반영한 게 특징이다. 기존 1세대 사전편찬은 편찬자의 경험과 능력을 기반으로 낱말을 수집하고 용례를 만들기 때문에 현실 언어를 반영하는 데 한계가 있다는 지적을 받아왔다. 고려대가 이번에 발간하는 말뭉치 기반 사전은 2세대 한국어사전인 셈이다.

○ 사용빈도 반영

이번 한국어대사전에 실린 표제어는 38만7000여 개로 1억 개의 어절에서 사용빈도를 점검해 선정했다. 사용빈도에 따른 배열 원칙은 뜻풀이에도 적용해 가장 많이 쓰이는 뜻을 맨 앞에 배치했다. 예를 들어 ‘밝히다’라는 단어를 찾을 경우 기존 사전에는 기본의미인 ‘환하게 하다’라는 의미가 먼저 나오지만 실제 언어생활에서는 ‘어떤 사실을 공공연하게 알리다’라는 뜻으로 가장 많이 쓰이는 것으로 분석돼 이를 앞세웠다. 기본 의미는 별도로 표시했다.

생생한 용례가 많다는 점도 특징이다. 기존 사전에는 편찬자가 만든 작위적인 예문도 적지 않았으나 이 사전에는 실제로 언중이 사용하는 문장 중에서 엄선했다. ‘밝히다’의 용례로 ‘저희 보육원을 후원해 주시는 분 가운데에는 저희에게 신분을 밝히지 않은 독지가들이 여럿 있습니다’라는 식으로 구체적인 예문이 실렸다.

실제 사용하는 언어를 관찰함으로써 새로 밝혀낸 의미도 추가됐다. ‘밝히다’의 7번째 의미로 ‘(무엇이 사회나 세상을)’ 희망차게 만들다’라는 의미는 기존 사전에 없는 것이다. 말뭉치 분석 기반 사전으로 연세대가 1998년에 ‘연세 한국어사전’을 편찬한 적이 있지만 5만 단어의 소사전이었다.

○ ‘삭발식’ 등 4만여 단어 추가

말뭉치 분석을 통해 기존 국어사전에는 실리지 않은 단어 4만여 개를 추가했다. ‘독수리타법’처럼 예전부터 사용해왔으나 기존 사전에는 빠져 있던 단어를 더한 것이다. 삭발식, 순애보, 외간남자, 요절복통, 손부채질, 감기몸살 등도 마찬가지.

사용빈도 분석을 통해 새로운 조어를 적극 찾아내 수록한 점도 이 사전의 특징이다. 강퇴, 비호감, 서클렌즈, 덮어쓰기, 스팸 메일, 악성코드, 꽃미남, 라식수술, 납골묘, 섹션, 게스트 하우스, 교통카드, 급발진, 난리부루스 등을 등재했다.

○ 사전 제작 과정에서 박사 논문만 12편 나와

17년간의 방대한 사전편찬 작업이 진행되면서 사전과 연관된 석사 논문이 13편, 박사논문 12편, 저서 12권이 나왔다. 참여 교수와 박사들의 학술 논문은 수십 편에 달한다. 사전편찬에 15년간 참여한 도원영 민족문화연구원 연구교수는 우리말에 형용성 동사(형용사처럼 사용되는 동사)가 있는 것을 발견하고 ‘국어 형용성 동사 연구’로 박사 학위를 받았다. ‘넥타이가 내 옷에 딱 맞는다’에서 ‘맞는다’가 그런 사례다.

말뭉치 기반 한국어대사전 편찬 사업을 기획하고 완간한 김흥규 원장은 “언어적 소통의 궁극적 기초인 어휘 자료가 정밀하고 폭넓어야 사회적 비효율을 줄일 수 있겠다는 생각에서 기획했다”며 “말뭉치 분석을 통한 대사전의 발간으로 앞으로는 데이터베이스 분석이 가능한 전문 연구기관에서만 사전 편찬이 가능할 것”이라고 말했다.

허진석 기자 jameshuh@donga.com

▼숫자로 본 고려대 한국어대사전▼

○ 355=표제어 추출부터 입력, 집필, 교정, 교열, 감수에 참여한 연구자 수. 국어국문학, 국어교육학, 언어학 분야의 교수와 연구자 등이 참여했다.

○ 41,235=기존의 어떤 사전에도 없지만 데이터베이스와 각종 자료에서 수집해 고려대 한국어대사전에 처음 수록된 어휘의 수.

○ 174,686=형태론 분야의 전문가들이 이 숫자만큼의 복합어를 분석해 그 정보를 제시했다. 형태소 분석을 기본단위까지 모두 제공한 것은 국내 첫 시도다.

○ 220,229=사전의 원고 내용을 원고지 장수로 환산한 것. 차곡차곡 쌓으면 10층 건물과 맞먹는 높이다.

○ 309,683=사전에 실린 용례 수. 실제 쓰임을 생생하게 보여주는 용례들이 실렸다.

  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0
  • 추천해요

댓글 0

지금 뜨는 뉴스