뉴스 트렌드 생활정보 International edition 매체

[세계의 눈/데이비드 브룩스]빅 데이터의 한계

입력 | 2013-02-22 03:00:00


데이비드 브룩스 뉴욕타임스 칼럼니스트

얼마 전 제법 큰 은행의 최고경영자와 저녁식사를 했다. 그는 유로 위기로 인한 불안한 전망 때문에 이탈리아에서 은행 사업을 접을지에 관한 결정을 내렸다고 했다. 그는 경제 전문가들에게 사업 철수 파장에 대한 시나리오를 짜라고 지시했다. 하지만 보고서가 아닌 자신의 가치관을 바탕으로 최종 판단을 내렸다.

그의 은행은 이탈리아에서 수십 년간 사업을 했다. 이탈리아인이 그의 은행을 ‘역경에 처했을 때는 믿지 못할 친구’로 여기지 않기를 바랐다. 직원들이 ‘환경이 힘들어졌다고 뺑소니치듯 도망간다’고 생각하지 않기를 원했다. 그는 이탈리아를 떠나지 않기로 했다. 단기적 비용 부담에도 불구하고 잠재적인 위기를 견디기로 한 것이다.

이는 ‘데이터’를 기반으로 한 결정이 아닌 다른 방식의 사고에 따른 것이다. 그가 옳다고 생각한다. 사업은 신뢰를 기반으로 한다. 그 신뢰는 감정의 상호작용이다. 그런 것은 데이터로 포착하기 어렵다.

데이터 분석의 강점과 한계를 말하려고 이 얘기를 꺼냈다. 오늘날 우리의 삶은 데이터를 수집하는 컴퓨터에 영향을 받고 있다. 데이터는 직관에 의한 지나친 과신을 막아주고, 욕망에 의한 인지 왜곡을 줄이는 데 도움을 준다.

그러나 빅 데이터가 형편없이 작동하는 경우도 꽤 많다.

우선 데이터는 사회적 관계 파악에 취약하다. 사람의 뇌는 계산에 취약하지만 사회적 관계 인지에 뛰어나다. 반면 컴퓨터 기반 데이터 분석은 사회적 관계의 질이 아닌 양을 측정하는 데 뛰어나다. 네트워크 연구자들은 당신이 늘 접촉하는 동료 6명과의 상호관계를 지도로 그릴 수 있다. 그러나 1년에 두 번 만나는 죽마고우에 대한 당신의 관심은 포착하지 못한다. 일생에 두 번 만난 베아트리체에 대한 단테의 사랑은 말할 것도 없다.

데이터는 문맥에도 취약하다. 사람의 결정은 고립된 일이 아니라 문맥과 일련의 사건에서 나온다. 사람의 뇌는 이를 잘 설명할 수 있도록 진화했다. 데이터의 설명은 3류 소설에도 못 미친다.

데이터는 많은 ‘건초더미’를 양산한다. ‘안티프래질(antifragile·‘스트레스에 더 강해지는 특성’을 뜻하는 조어)’의 저자인 나심 탈레브가 말한 핵심이다. 데이터가 많을수록 통계적으로 유효한 상관관계도 많아진다. 이런 상관관계 대부분은 그럴싸하지만 어떤 상황을 이해하려고 할 때 우리를 방해한다. 건초더미가 커질수록 찾아야 할 바늘은 더 깊숙이 묻힌다.

빅 데이터는 ‘거대담론’을 제대로 다루지 못한다. 만약 어떤 e메일이 캠페인에 가장 많이 기여했는지 알고 싶다면 통제된 실험을 통해 그것을 찾을 수 있다. 그러나 만약 여러분이 경기 침체기에 경제를 활성화시키려 한다면 얘기는 달라진다. 당신은 비교 실험에 필요한 다른 대안 사회를 가질 수 없기 때문이다.

데이터는 대중이 관심을 보이는 것만 반영한다. 많은 사람들이 짧은 시간 동안 특정 문화상품을 선호하는 현상은 잘 포착한다. 그러나 처음 등장했을 때 대중에게 익숙지 않은 중요한 문화상품은 놓친다.

데이터는 가치를 모호하게 만든다. 나는 최근 ‘원본 데이터는 어법 모순’이라는 훌륭한 제목이 붙은 학술서적을 봤다. 그 책의 핵심은 ‘데이터는 결코 날것이 아니다’라는 것이다. 데이터는 어떤 식으로든 특정인의 성향과 가치관에 의해 구조화된다는 것이다. 비록 최종 결과가 객관적으로 보이더라도 말이다. 빅 데이터가 좋은 도구가 아니라고 주장하는 것은 아니다. 어떤 도구든지 좋은 점이 있으면 나쁜 점도 있다는 것이다.

데이비드 브룩스 뉴욕타임스 칼럼니스트