공유하기
입력 2008년 10월 10일 02시 58분
공유하기
글자크기 설정
사과.
먹고 싶다. 뭘 잘못했나? 박식한 사람은 조선시대 벼슬도 떠올린다.
같은 단어라도 상황에 따라 다르게 쓰인다. 종종 새로운 뜻이 추가되기도 한다. 영어 단어 애플(Apple)은 과일이기도 하지만 컴퓨터 회사로도 잘 알려져 있다.
언어는 시간의 흐름에 따라 생성과 변화, 소멸을 거친다. 마치 생명체처럼.
과학자들은 언어의 다양한 양상을 학문과 산업에 활용하기 위해 디지털 방식으로 자원화하고 있다. 한글도 예외는 아니다.
○ KAIST ‘언어자원은행’ 운영
KAIST 전자전산학부 최기선 교수팀이 운영하는 국가지정 언어자원은행에는 총 196종의 한글 관련 언어자원이 구축돼 있다. 2003년 설립 이래 지금까지 국내외 연구기관이나 학교, 기업 등에 총 2056건의 언어자원을 제공해 왔다.
언어자원은행 남세진 팀장은 “다양한 한글 문자나 음성 데이터를 컴퓨터가 읽을 수 있는 형태로 가공해 모으고 있다”며 “이를 분석하면 연구나 산업 분야에서 응용 가능한 통계정보를 얻어낼 수 있다”고 설명했다.
예를 들어 신문기사를 파일로 수집해 날짜나 섹션 등에 따라 구분해 놓는다. 또 우리말의 최소 단위인 형태소나 단어, 구문 등을 데이터베이스로 만들고 문장에서 이들을 찾아내는 프로그램을 설계한다. 이런 자원들을 조합하면 특정 사건이나 인물에 대한 신문기사의 변천 과정을 통계적으로 분석할 수 있다. 기사 안에서 감정을 나타내는 단어를 모두 찾아 수치화하면 그 기사의 전체적인 논조까지 분석할 수 있게 된다.
남 팀장은 “이 기술을 적용하면 시간의 흐름에 따라 특정 사건에 대한 사회적 분위기의 변화를 한눈에 파악할 수 있을 것”이라며 “특정 단어가 쓰인 횟수만으로 검색하는 기존의 방법은 활용에 한계가 있다”고 말했다.
○ ‘우리말이해시스템’ 단어 4만개 DB 구축
과학자들은 사람의 언어를 컴퓨터가 얼마나 잘 이해하게 하느냐가 정보시대의 경쟁력이라고 말한다. 이런 기술을 개발하는 분야가 바로 언어공학이다.
과거 언어공학은 언어자원을 기계적인 방법으로 다뤘다. ‘사과’란 단어가 ‘먹다’란 말과 함께 나오면 과일로 해석하는 식이다.
최근 언어공학자들은 언어자원에 의미 정보를 표현하는 방식을 개발하고 있다. 화자의 의도나 문맥, 단어 간 관계 등에 따라 다르게 받아들여지는 말을 기계적인 방법으로만 분석하기엔 한계가 있기 때문이다.
언어자원은행에 있는 한글 개념분류표가 한 예다. ‘나는 학교에 간다’와 ‘나는 학원에 간다’가 비슷한 의미라는 걸 사람들은 쉽게 안다. 그러나 컴퓨터에게는 학교와 학원이 모두 교육기관의 하위 개념이라는 사실을 알려줘야 한다. 언어 사이의 이 같은 관계를 도식화한 것이 바로 개념분류표다.
부산대 정보컴퓨터공학부 권혁철 교수팀은 ‘우리말 이해시스템’을 구축하고 있다. 약 4만 개의 한글 단어에 대해 일반적인 뜻과 특수한 경우의 의미, 비슷한 말, 반대말, 관계어 등을 구조화해 데이터베이스로 만드는 것. 컴퓨터가 우리말의 단순한 뜻뿐 아니라 문맥이나 의도까지 종합적으로 파악하게 하는 게 목표다.
○ 한국어 언어공학자 갈수록 줄어
언어공학자들에게 한글은 아주 까다로운 존재다. ‘철수가’ ‘철수의’ ‘철수에게’ 등 명사와 조사가 붙어 있어 분리하기 쉽지 않고, 명사에 어떤 조사를 붙여야 하는지도 경우에 따라 다르다. 영어는 대부분 띄어쓰기로 분리해 쓰기 때문에 상대적으로 쉽다.
한글에는 또 ‘누렇다’ ‘샛노랗다’ ‘노르께하다’ 등 비슷한 의미지만 표현이 다양한 단어가 많다. 문장 구조도 영어에 비해 다양하다. 우리말을 잘 이해하지 못하는 외국인이 연구하기 어려운 이유다.
권 교수는 “일본어나 중국어를 연구하는 언어공학자는 급격히 늘고 있는데 반해 한국어 언어공학자는 오히려 줄고 있다”며 “국가 차원의 관심이 절실한 상황”이라고 말했다.
임소형 동아사이언스 기자 sohyung@donga.com