빅데이터 시대, '텍스트 분석' 각광... 어디까지 왔나?

동아닷컴
입력 2015년 6월 5일 15시 00분

코멘트: 개

좋아요: 개

코멘트: 개

[IT동아 안수영 기자]

빅데이터 시대, 데이터 분석으로 새로운 가치 창출 가능

현대 사회에서 '데이터(Data)'란 무엇이고, 어떤 가치를 지닐까? 아직까지는 많은 기업들이 데이터란 비즈니스 활동의 '결과'라고만 인식하고 있다. 하지만, 데이터 속에서 얻을 수 있는 가치는 더욱 무궁무진하다. 이에 최근에는 데이터를 '분석'해서 가치 있는 정보를 얻어내고, 이를 비즈니스에 '적용'해서 성과를 내는 사례들이 점점 늘고 있다.

요즘처럼 미디어, 디바이스, 각종 정보가 넘쳐나는 시대에는 데이터를 분석, 새롭게 적용하면 의미 있는 가치를 창출할 수도 있다. 물론, 그러려면 아무 내용을 분석하는 것이 아니라 유의미한 데이터를 다뤄야 한다. 그렇다면 분석 대상이 되는 데이터는 어떤 종류가 있을까?

수치 데이터를 넘어 비정형 데이터도 분석되는 추세

분석 대상으로 삼을 수 있는 데이터의 종류는 수치뿐만 아니라 텍스트, 오디오, 비디오에 이르기까지 매우 다양하다. 기존에는 '데이터'라 하면 '수치로 표현되고 데이터베이스에 저장되는 값'이라고만 여기는 것이 일반적이었다. 예를 들면 매출액, 계좌번호, 고객ID, 제품 CODE 같은 것들을 데이터로 삼은 것이다. 이러한 데이터는 구조, 발생, 처리, 소멸에 대한 기준이 이미 정해져 있다는 점에서 '정형 데이터'라고 부른다. 하지만, 이제는 달라졌다. 요즘에는 '비정형 데이터'인 텍스트, 오디오, 비디오 등을 분석해 경쟁 우위를 찾으려는 사례들이 늘고 있다.

예를 들면, A병원은 내원/건강 검진 환자들에 대한 의료 기록을 보유하고 있으며, 이를 이용해 질병의 발생 가능성을 예측해서 환자들에게 더 나은 의료 서비스를 제공하려고 했다. 이를 위해 A병원은 기존에 활용되지 못했던 의사들의 '소견' 텍스트 데이터를 분석했다. 그리고 여기서 유의미한 정보를 추출하고 이를 데이터베이스에 담은 뒤, 예측력이 더욱 뛰어난 모델을 만들었다. A병원은 의사들의 소견 중 유용한 정보를 추출하는 데에 '텍스트 분석 기법'을 활용했다.

텍스트 분석, 아직은 어려운 분야… 그 이유는?

그렇다면 이러한 텍스트 분석은 우리 주변에서 얼마나, 어떻게 이루어지고 있을까? 사실 텍스트 분석은 오래 전부터 연구되어 왔지만, 여전히 적용하기 어려운 분야다. 그 이유는 인간의 언어가 프로그램 코드처럼 분명하고 정교한 문법으로 표현되지 않기 때문이다. 사람이 한 말을 제대로 분석하려면 단어나 구문의 구조뿐만 아니라 말 속에 담긴 내용과 의미까지 이해해야 한다. 하지만, 현재 텍스트 데이터 분석 기법은 이러한 단계까지 나아가지는 못했다.

현재 많은 텍스트 분석 기법들이 연구되고 있지만, 지금까지 나온 방법들은 현실의 텍스트 데이터를 분석하는 데 정확도가 떨어진다. 문장 내의 어휘들을 마치 레고 블록처럼 분해하고 결합하면 언어를 이해할 수 있다고 접근했기 때문이다. 하지만, 이러한 접근 방식은 인간의 언어가 프로그램 코드처럼 정확하게 표현될 때에만 적용 가능한 방식이다. 실제 인간이 언어를 표현하는 방식을 기계적인 방법으로 이해하는 것은 아직도 그 완성도가 높지 않다.

결국, 그 동안 '어휘 사전'을 이용하거나 '기계학습' 방법을 사용하는 것이 최선이라 생각하고, 이를 활용한 감성 분석이나 문서 분류를 진행했던 과거 프로젝트들의 상당수는 기업이 활용할 만큼 실용적인 결과를 만들어내지 못했다. 이에 대한 원인은 여러 가지가 있지만, 빅데이터 업계에 따르면 아직 국내 기술 수준에서는 표준화된 어휘 사전을 찾기 어렵고, 기계학습으로는 기업이 원하는 수준의 정확도를 만족시킬 수 없기 때문이다.

참고) 기계학습 알고리즘이란?

아이들이 처음으로 초콜릿을 먹고 '초콜릿은 달다'라는 정보를 알았다고 하자. 그러면 그 아이는 초콜릿 쿠키나 초콜릿 케익 등, 아직 먹어보지는 않았지만 초콜릿으로 만든 여러 음식들도 달콤할 것이라고 판단할 것이다. 이와 같이 기계도 어떤 것을 학습하면 그와 관련된, 그러나 직접적으로 알려주지 않은 것에 대해 인식하고 답할 수 있다. 이를 기계학습 알고리즘이라 한다.

텍스트 분석, 새로운 시도에 박차

이에 따라, 최근 텍스트 분석 분야에서는 보다 새로운 시도와 연구들이 진행되고 있다. 그리고 보다 효과적인 결과들도 점차 등장하고 있다. 텍스트 분석에 대한 새로운 시도 중 하나는, 언어를 수치로 보는 방법이 아닌 '문법이나 문맥 기반의 언어 구조 패턴을 분석하고 이를 정교화해 분석의 정확도를 높이는 방안'이다.

예를 들면, 기업 내의 위험을 모니터링하는 부서에서는 단순 키워드 분석에서 벗어나, 언어 구조 패턴 분석 방법을 활용해 위험 요소를 속성과 강도로 세분화해 선제 대응하고 있다. 이러한 시도와 새로운 방법론에 입각해 좀 더 효과적으로 텍스트를 분석하고자 하는 기업, 그리고 해당 솔루션을 제시하는 곳들은 점점 늘어나고 있다.

텍스트 분석의 목표, 정확한 정보와 인사이트 제시

텍스트 분석의 목표는 크게 2가지다. 첫째, 텍스트의 내용을 이해하고 적절한 카테고리로 '분류'하는 것이다. 이는 텍스트 데이터를 활용하기 위한 가장 기본적인 방법으로 여겨지고 있다. 예를 들면 '고객의 소리'와 같은 데이터를 분석해, 고객이 어떤 것에 관심을 갖고 어떤 것에 불만을 갖고 있는지 알아낼 수 있다. 이렇게 알아낸 정보를 정형화해 데이터베이스에 저장하면, 기존의 정형 데이터와 같은 방법으로 분석할 수 있게 된다.

둘째, 비즈니스에 적용할 수 있는 '인사이트'를 발굴하는 것이다. 인사이트는 특정 키워드일 수도 있고, 원인, 목적, 니즈 등을 표현하는 구절이나 문장이 될 수 있다. 이렇게 추출한 인사이트는 분석자가 기존에 알지 못하는 정보다. 이것이 앞서 언급한 '분류' 와 다른 점이라고 할 수 있다.

즉, 텍스트 분석의 목표는 '이미 알고 있는 체계에 의한 정보' 와 '이전에 몰랐던 새로운 정보'를 발굴하기 위한 것이다.

최근 텍스트 분석이 각광을 받으며 이를 전문적으로 분석하고자 하는 회사들이 늘어나고 있지만, 각 업체별 분석 방법과 기법은 천차만별이다. 따라서, 내부 문서나 고객의 의견 등을 제대로 분석하고자 하는 기업들은 텍스트 분석의 명확한 목적과 담당자의 끊임없는 고민, 그리고 이에 적합한 솔루션을 제공해줄 수 있는 텍스트 분석 회사를 선택하는 것이 중요하다. 이것이 바로 빅데이터 기술 기반 텍스트 분석을 제대로 이해하고 활용하는 방법일 것이다.

글 / IT동아 안수영(syahn@itdonga.com)

※ 포털 내 배포되는 기사는 사진과 기사 내용이 맞지 않을 수 있으며,

온전한 기사는 IT동아 사이트에서 보실 수 있습니다.

사용자 중심의 IT저널 - IT동아 바로가기(http://it.donga.com)