분석 틀 ‘동아일보 코퍼스’는 1946년이후 기사 260만건-4억어절 분석… 특정 단어 출현빈도-동반등장 단어 추출

동아일보
입력 2018년 8월 14일 03시 00분

조종엽 차장

신문은 사회 변화를 보여주는 근현대의 가장 기본적인 사료다. 일제에 의해 강제 폐간됐다가 1945년 12월 복간 이후 지속 발행하고 있는 정론지 동아일보는 사료로서 가치가 특히 높다.

그러나 방대한 자료도 분석 도구가 없으면 존재하지 않는 것이나 다름없다. ‘동아일보 코퍼스’는 이도길 고려대 민족문화연구원 교수, 김일환 성신여대 국문학과 교수(민족문화연구원 공동연구원) 등이 2009년부터 연구해 탄생했다. 1946∼2014년 발간된 동아일보 약 260만 기사(약 4억1000만 어절) 전체를 분석할 수 있는 시스템이다.

연구팀은 같은 기간 ‘물결21’이라는 사업을 통해 동아일보 조선일보 중앙일보 한겨레신문의 2000∼2013년 신문 기사 5억9200만 어절을 분석할 수 있는 시스템을 만들고 이미 공개하기도 했다.

신문 기사를 분석하기 위해서는 기사 문장을 형태소로 분리하고, 품사 정보를 ‘태깅’(부착)하는 게 필요하다. 이 교수는 먼저 ‘KMAT’라는 기계학습 기반의 자동 형태소 분석, 품사 태깅 도구를 개발해 ‘21세기 세종계획’으로 확보된 한국어 언어 자료를 학습했다. 이를 통해 새로운 형태소 분석 모델을 만들어냈다.

이 교수는 “일제강점기 동아일보 기사는 맞춤법이 오늘날과 많이 달라 별도 작업이 필요하다”며 “추후 완성되면 100년가량의 시간대에서 언어적, 사회·문화적 변화를 추적할 수 있는 데이터가 확보되는 것”이라고 말했다. 김 교수는 “공기어(共起語·문맥상 함께 등장하는 단어) 분석이 가능한 품사 범주를 확대하고 인명·지명·단체명·사건 명칭을 구별할 수 있도록 시스템을 정교하게 보완하면 가까운 미래의 추세 예측도 기대할 수 있을 것”이라고 전망했다.

조종엽 기자 jjj@donga.com

#동아일보 #동아일보 코퍼스