[책의 향기]데이터가 항상 진실만을 말해주는 것은 아니다

이호재 기자 입력 2021-10-16 03:00수정 2021-10-16 21:31
공유하기뉴스듣기프린트
공유하기 닫기
◇데이터 과학자의 일/박준석 등 지음/260쪽·1만7000원·휴머니스트
◇다크 데이터/데이비드 핸드 지음·노태복 옮김/396쪽·1만8000원·더퀘스트
스포츠 업계의 빅데이터 활용을 다룬 영화 ‘머니볼’의 한 장면. 미국 메이저리그 프로야구팀 오클랜드 애슬레틱스 단장 빌리 빈(브래드 피트·왼쪽)은 예일대 경제학과를 졸업한 피터 브랜드(조나 힐)와 함께 경기 데이터에만 의존해 적재적소의 선수들을 선발한다. 소니픽처스 제공
‘빅데이터’의 시대다. 각종 정보들이 디지털을 통해 실시간으로 쌓여 분석할 데이터 양은 기하급수로 늘고 있다. 모두가 앞다퉈 빅데이터를 이용한 사업과 연구에 박차를 가하고 있다. 빅데이터가 이끄는 미래가 궁금하다면 이것의 현황과 한계를 짚은 신간 2권을 읽어볼 만하다.

신간 ‘데이터 과학자의 일’은 국내 데이터 과학자 11명이 함께 쓴 책이다. 저자들은 각종 산업현장에서 어떻게 데이터가 활용되고 있는지를 쉽게 풀어 알려준다. 이 중 스포츠 업계에서는 빅데이터가 이미 본격적으로 실무에 적용되고 있다. 예를 들어 영화 ‘머니볼’(2011년)에서는 미국 메이저리그의 만년 하위 팀이 선수들의 데이터를 분석해 상위권으로 도약한다. 코치들의 주관적 판단에 따라 선수를 영입하던 과거 방식에서 벗어나 선수들의 출루율, 장타율, 연봉 등을 자세히 분석한 후 트레이드에 나선 것. 축구나 농구 등 다른 구기종목에서도 빅데이터 분석은 보편적으로 쓰이고 있다.

요즘 게임회사는 데이터의 보물창고로 불린다. 이용자들의 활동이 디지털 환경에서 이뤄지기에 빅데이터가 실시간으로 쌓이기 때문이다. 게임회사는 데이터를 마케팅 전략뿐 아니라 불법행위 단속에도 활용한다. 게임 속 캐릭터들이 움직이는 패턴을 분석해 계정 도용이나 아이템 현금거래 사례를 적발할 수 있다. 예컨대 일부 게임 캐릭터들이 게임 속 특정 장소에서 자주 접촉하는 흐름이 포착되면 불법행위 가능성을 의심할 수 있다는 것이다.


하지만 데이터가 항상 우리에게 진실만을 말해주는 것은 아니다. 영국 왕립통계학회장을 지낸 데이비드 핸드 임피리얼칼리지런던 수학과 명예교수는 신간 ‘다크 데이터’에서 우리가 놓치는 데이터(다크 데이터)로 인해 사회현상을 제대로 파악하지 못한다고 지적한다. 현실적으로 모든 데이터를 수집할 수 없기에 통계학적 오류가 빈번히 발생한다는 것.

주요기사
예컨대 2012년 허리케인 샌디가 미국 동부 해안을 강타했을 때 재난 전문가들은 소셜네트워크서비스(SNS)를 분석해 어느 지역의 긴급구조가 시급한지 알아내고자 했다. 샌디가 이동하는 지역의 주민들이 트위터에 “도와 달라”는 글을 잇달아 올린 데서 착안한 것이다. 약 2000만 건의 트위터 게시 글을 분석한 결과 가장 많은 구조 요청을 보낸 지역은 부유층이 많이 사는 뉴욕 맨해튼이었다. 이 지역에 스마트폰 소유자가 그만큼 많았기 때문이다. 반면 다른 지역에서는 맨해튼보다 재난 정도가 심각했지만 스마트폰 소유자가 적어 트위터 게시 글도 적게 올라왔다. 구조 정보를 SNS 데이터에만 의존했다면 정부 대응은 실패했을 것이라는 저자의 비판이 아찔하게 느껴진다.

금융권에서는 은행들이 기존 대출자들의 데이터를 분석해 신규 대출자의 상환 가능성을 예상한다. 하지만 은행이 수집할 수 있는 대출자들의 개인정보는 제한적이다. 신규 대출자의 소득이나 자산 정보 등에 빠져 있는 다크 데이터로 인해 금융기관이 돈을 떼일 수도 있다는 것. “다크 데이터는 어디에나 있다”는 저자의 말처럼 데이터에 도사린 불완전성을 염두에 두고 신중하게 접근하는 게 무엇보다 중요하지 않을까. 결국 기술을 어떻게 쓰는지는 인간의 손에 달려 있기 때문이다.

이호재 기자 hoho@donga.com
#데이터#과학#다크 데이터
0 개의 기사의견이 있습니다.댓글쓰기 Copyright ⓒ 동아일보 & donga.com
당신이 좋아할 만한 콘텐츠
기사 의견 0개의 기사의견이 있습니다.
동영상