[임현석의 두근두근 IT]점쟁이 빅데이터? 깜깜이 빅데이터

  • 동아일보
  • 입력 2017년 5월 11일 01시 06분


코멘트
올 대선 막판 관전 포인트 중 하나가 빅데이터를 통한 예측의 정확성이었다.

3일부터 선거일인 9일까지 여론조사 결과는 공표가 금지됐다. 5일 홍준표 자유한국당 후보는 자신의 지지율이 본격적인 상승세를 탔다는 주장을 내놨다. 근거는 2일 기준 온라인 빅데이터 분석도구 ‘구글트렌드(trends.google.co.kr)’를 통한 온라인 검색량이었다. 홍 후보 측은 구글트렌드가 여론조사보다 오히려 바닥민심을 더 정확하게 읽는다고 주장했다.

구글트렌드는 인터넷 포털사이트인 구글에서 특정 단어의 검색량을 지수화해 보여준다. 검색 빈도가 가장 높은 시점을 100으로 정한 뒤 나머지 빈도를 상대적으로 수치화한다. 구글트렌드는 지난 미국 대선에서 유명세를 탔다. 여론조사에선 뒤쳐졌던 도널드 트럼프 공화당 후보가 구글트렌드에서는 힐러리 클린턴 민주당 후보에 앞섰고 결국 당선됐기 때문이다. 구글트렌드는 앞서 영국의 유럽연합 탈퇴를 예견하기도 했다.

이달 첫주(1~7일) 구글트렌드에서 주요 대선후보 검색량 순위 추세선. 파란색(문 대통령), 빨간색(홍 후보), 노란색(안 후보), 초록색(유 후보), 보라색(심 후보) (출처=구글트렌드)
이달 첫주(1~7일) 구글트렌드에서 주요 대선후보 검색량 순위 추세선. 파란색(문 대통령), 빨간색(홍 후보), 노란색(안 후보), 초록색(유 후보), 보라색(심 후보) (출처=구글트렌드)


한국 대선에서는 어땠을까. 이달 첫 주(1~7일) 평균 구글 키워드 검색량은 문재인 대통령이 가장 많았고 홍 후보와 안철수 국민의당 후보 순이었다. 그 뒤를 유승민 바른정당 후보와 심상성 정의당 후보가 이었다. 개표 결과와 같다. 이 때문에 일부 언론서는 온라인 빅데이터 분석이 실제 대선결과를 예견했다고 보도하기도 했다.

놀라운 일이 아닐 수 없다. 빅데이터가 선거 결과까지 예측하는 시대가 왔으니 말이다.

그러나 전문가들의 생각은 다르다. 구글트렌드가 대선 결과와 맞아떨어진 것은 단순한 순위뿐이었다. 구글트렌드에서 보인 검색량은 문 대통령과 홍 후보가 박빙이었다. 그러나 최종 개표결과 문 대통령의 득표율은 41.08%로 홍 후보의 24.03%를 크게 앞섰다.

서울대 이준웅 언론정보대학원 교수는 “대선결과가 나온 후 이를 구글트렌드와 꿰맞춘 것”이라고 목소리를 높였다. 그는 “대선정국에서 중요한 정보는 어느 후보가 화제를 끄느냐가 아니다. 실제로 국민이 어느 후보를 지지하는지, 투표할 의지가 있는지가 더 중요한 정보”라고 했다.

구글트렌드는 일종이 화제성 지수다. 지지율과 화제성을 직접 연결짓는 데는 무리가 따른다는 지적이다. 홍 후보가 “역전했다”고 주장한 2일 구글검색량은 실제 문 대통령을 앞서기도 했다. 그러나 이날은 마지막 TV 토론이 열린 날이었다. 후보 간 막말 논란으로 홍 후보에 대한 긍정적 시선과 함께 부정적 인식도 함께 커진 시점이었다.

한규섭 서울대 언론정보학과 교수는 “우리처럼 세대별로 투표성향이 크게 갈리는 상황에서 온라인 여론만으로 전체 민의를 판단하려는 시도 자체가 별 의미가 없다”고 일갈했다.

앞으로는 어떻게 될까. 지금이야 단순히 키워드 검색량으로 빅데이터를 만들고 있지만 긍정적 키워드, 부정적 키워드를 스스로 학습하는 인공지능(AI)이 끼어든다고 가정해 보자. 어쩌면 그 때는 방송사 개표 방송이 사라질지도 모른다는 생각이 불현듯 스친다.
임현석기자 lhs@donga.com


  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0
  • 추천해요

댓글 0

지금 뜨는 뉴스