[신문과 놀자!/눈이 커지는 수학]천차만별 영화 리뷰, 인공지능은 어떻게 분류할까?

동아일보
입력 2021년 8월 20일 03시 00분

텍스트를 수치화하는 방법
“흥미”“별로” 등 다양한 표현서 글쓴이 감성 분석해 영화 평가
어휘에 수치값 준 뒤 합계 내거나 집합-벡터 활용해 ‘유사도’ 도출
다양하게 쓰여진 영화 감상 정보 객관적 수치로 나타내 편의 도모

이달 14일부터 이어진 광복절 연휴에 침체됐던 극장가가 조금씩 활기를 띠었다는 소식입니다. 서영이도 조심스레 극장을 다녀올까 하는 마음에 영화 리뷰를 찾아보았습니다.

“예상했던 뻔한 내용이었지만, 배우들의 훌륭한 연기력과 코믹스러움, 긴박감이 이 영화를 살렸네요. 기대 안 하고 봤는데 생각 이상으로 재미있었어요.”

▽서영=영화 리뷰를 보다 보면 숫자로 표현된 평점과 솔직하게 쓴 텍스트 리뷰가 서로 맞지 않을 때가 있어요.

▽엄마=그렇지. 감정을 수치로 표현하기는 어려울 수도 있어. 그래서 어떨 때엔 텍스트로 된 리뷰가 도움이 되기도 한단다. 최근에 인공지능이 활용되는 분야 중 하나가 텍스트를 분석해 작성자의 의견이나 감성, 평가, 태도 등을 분류하는 것이란다. 여기에도 수학이 숨어 있지.

○ 리뷰 분석에 숨겨진 수학 원리

많은 사람들이 배달 애플리케이션을 이용해서 음식을 주문하거나 인터넷에서 쇼핑을 하거나 동영상을 시청한 후 리뷰를 남깁니다. 리뷰는 온라인 서비스에만 국한되지 않습니다. 식당을 방문하거나 영화를 보아도 리뷰를 남기지요. 이런 사이트에는 하루에도 몇만 건씩 리뷰가 올라오는데, 인공지능을 이용하면 텍스트 속 단어를 비교해 분석할 수 있습니다.

이와 같이 리뷰를 작성한 사람의 기분이나 긍정, 부정 등 감정을 추출해 특정 이슈나 인물에 대한 사람들의 평가, 태도, 감정을 분류하는 방법을 ‘감성 분석’이라고 합니다. 쉽게 말하면 영화 리뷰나 기사의 댓글, 어떤 상품의 후기와 같은 텍스트 자료에서 긍정적인 단어의 출현 빈도가 높다면 만족도가 높다고 분석할 수 있는 것이지요.

인공지능은 ‘좋다, 재미있다, 훨씬, 훌륭한, 최고’ 등과 같은 긍정 어휘, ‘재미없다, 아깝다, 지루하다, 뻔하다, 별로다’ 같은 부정 어휘 등 사전을 미리 준비합니다. 이를 바탕으로 여러 가지 방법으로 어떤 영화 리뷰에 대한 감정을 분류할 수 있습니다. 우선 감성 사전을 이용하여 리뷰에 대한 감성을 분류하고, 단어별 감성 점수를 ‘긍정’은 +2점, ‘부정’은 ―2점, ‘중립’은 0점을 부여해 그 합계를 계산하는 방법이 있습니다(그래픽 참조).

인공지능은 분류 규칙을 만들어 텍스트를 수학적으로 분류합니다. 그런데 감성 사전을 만들 때는 주관적인 요소가 크게 작용합니다. 따라서 일반적인 상황에 적용 가능한 감성 사전보다 분야나 상황에 맞는 감성 사전을 구축할 필요가 있습니다. 예를 들어 ‘졸리다’라는 단어의 감성 분류는 영화 리뷰에서는 ‘부정’의 의미를 가지지만, 침대 상품 리뷰와 같은 데에서는 ‘긍정’의 의미로 사용될 수도 있기 때문입니다. 또 사람들이 리뷰에 사용하는 단어가 매우 다양하기 때문에 모든 단어를 구분해 사전을 구축하기 어려워 이 같은 방법으로 점수 합계를 내기 어려울 때도 있습니다.

그래서 텍스트의 감성을 분류하는 또 다른 방법으로 이미 구축한 긍정과 부정 어휘 사전에 포함된 단어들과 비교하여 문장에 포함된 감정을 판정하는 방법을 사용하기도 합니다. 이때 텍스트 자료들 사이의 유사한 정도를 수치화하여 나타낸 것을 ‘유사도’라고 합니다. 이러한 ‘유사도’를 나타내는 데에는 집합을 이용하는 방법과 벡터를 이용하는 방법이 대표적입니다.

○ 집합과 비율을 이용하는 유사도

두 문장 사이에 공통된 어휘의 비율을 나타내는 자카드 유사도는 두 문장에 공통적으로 포함된 어휘들의 수와 전체 어휘의 수의 비로 나타냅니다. 자카드 유사도는 일종의 확률이므로 0 이상 1 이하의 값을 갖는데 1에 가까울수록 A, B는 유사한 문장으로, 0에 가까울수록 유사하지 않은 문장으로 판별됩니다. 긍정 어휘의 집합, 부정 어휘의 집합을 만들어, 영화 리뷰에 대한 자카드 유사도를 계산해 볼 수도 있습니다.

문장이나 단어를 크기와 방향을 가지는 벡터로 나타내면 두 점 사이의 거리나 벡터의 방향을 이용하여 문장이나 단어 사이의 유사도를 측정할 수 있습니다. 두 점 사이의 거리를 이용하여 유사도를 구하는 것을 ‘유클리디안 유사도’라고 합니다. 유클리디안 유사도는 두 텍스트 자료의 유사도를 기하적인 거리의 개념으로 나타낸 수치이므로 그 값이 0에 가까울수록 두 텍스트 자료가 유사하다고 판단합니다.

최근 감성 분석은 여러 가지 딥 러닝 기법을 바탕으로 텍스트 외에도 이미지, 생체 신호 분석 등에서 뛰어난 성과를 보여주고 있습니다. 많은 정보 속에서 이용자가 필요로 하는 결과를 최대한 빨리 찾아 주는 서비스에서도 수학이 기본이 된다는 사실을 잊지 않길 바랍니다. 오늘의 리뷰를 쓰면서 내 리뷰는 어떤 감성으로 분류될지 수학적으로 한번 생각해 보는 것도 좋겠지요.

#신문과 놀자 #영화리뷰 분류 #인공지능

박지현 반포고 교사