[대전/충남]“미래를 알고 싶다면 빅데이터 분석하세요”

  • 동아일보
  • 입력 2014년 7월 10일 03시 00분


코멘트

정하웅 KAIST 석좌교수
“구글검색으로 선거결과도 예측”

KAIST 정하웅 교수가 독서모임 백북스를 찾아 복잡계 네트워크와 데이터 과학을 알기쉽게 설명하고 있다. 지명훈 기자 mhjee@donga.com
KAIST 정하웅 교수가 독서모임 백북스를 찾아 복잡계 네트워크와 데이터 과학을 알기쉽게 설명하고 있다. 지명훈 기자 mhjee@donga.com
세계 최고의 검색엔진 ‘구글’은 과연 세상을 손바닥 보듯 잘 알고 있는 걸까?

KAIST 정하웅 석좌교수(물리학과)는 8일 저녁 대전 서구의 박성일한의원에서 열린 백북스 강연에서 자신의 경험담을 털어놨다. “서울시장 보궐선거 하루 전날인 2011년 10월 25일 밤 11시 15분에 구글에 이름을 쳐 넣어 웹 페이지수를 검색해 봤습니다. 웹 페이지수와 선거 득표율이 상관관계가 높다는 말을 들었기 때문입니다. ‘나경원’은 4660만 개, ‘박원순’은 5430만 개가 나왔습니다. 당시 실제 득표율은 나경원 46.2%, 박원순 53.4%였습니다. 구글을 ‘신(神)’이라고 부를 만한 결과였죠.”

2007년 국내 대통령선거 직후 한 블로거가 대선 후보들의 이름을 구글에 검색해 본 결과 이명박 1000만 개, 정동영 500만 개, 이회창 300만 개가 떴는데 당시 각 후보의 득표수와 거의 일치했다는 글을 올렸다. 정 교수는 이 글을 보고 “이런 방식을 활용해 미국 대선 등 여러 주요 선거의 결과를 미리 예측할 수 있었다”고 말했다. 요즘은 일부 언론에서도 구글 검색 트렌드로 선거 결과를 예측하려는 시도들이 나오고 있다.

정 교수는 빅 데이터와 네트워크 분석이 유용한 이유를 이렇게 설명했다. “빅 데이터는 사소한 오류와 오차를 극복하고 트렌드를 보여줄 수 있을 정도로 규모가 크다. 검색 데이터의 경우 사용자들이 진정으로 알고 싶은 것을 검색하기 때문에 의미 있는 자료라 할 수 있다. 구글은 분석에 사용하는 검색어를 공개하지 않는데 이는 검색어를 공개하는 순간 재미로 검색하는 사람들이 늘고 예측이 맞지 않을 수 있다고 보기 때문이다.”

하지만 정 교수는 빅 데이터 분석이 아직 완벽한 건 아니라고 했다. “미국의 질병예방통제센터에 보고되는 지역별 독감환자 수는 2주 전의 상황이었다. 여러 행정 단계를 거쳐 파악되기 때문이다. 비행기로 미국 서부에서 동부까지 4시간이면 갈 수 있기에 2주일이라는 시간이면 독감이 미국 전역에 퍼질 수 있다. 구글 역시 검색 데이터를 통해 실시간 분석을 시도했는데, 독감 증상 때 가장 많이 사용하는 검색어 50개를 골라 지역별 분포를 알아본 결과 2008~2012년은 정확하게 맞아떨어졌지만 2013년에는 분석이 크게 빗나갔다. 검색어뿐 아니라 검색 내용을 감안하지 않았기 때문이다.”

정 교수는 정보와 네트워크가 우리 앞에 놓인 복잡한 미래에 대한 해답을 제공할 가능성이 높다며 ‘정보와 네트워크에 대해 진지하게 생각해 보라’고 권했다.

이날 강연에서 정 교수는 빅 데이터와 네트워크, 복잡계를 수학적 도식 없이 쉽게 설명했다. 그의 강연은 KAIST가 교수들의 수업 내용을 담아 출판한 명강의 시리즈의 1탄 ‘구글신은 모든 것을 알고 있다’의 내용이다. 백북스 상임대표인 박성일 원장은 “KAIST 강의실 수업 내용이 캠퍼스 담장을 넘어 일반시민에게 전해지는 계기였다. 앞으로 어려운 과학을 일반시민이 쉽게 이해할 수 있는 계기가 많았으면 좋겠다”고 말했다.

지명훈 기자 mhjee@donga.com
#정하웅#KAIST#구글#빅데이터
  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0
  • 추천해요

댓글 0

지금 뜨는 뉴스