맹신하면 위험한 평균의 함정
평균은 자료가 모여 있는 특성을 나타내는 대푯값이다. 평균에는 여러 가지 종류가 있고 경우에 따라 각 종류의 평균값이 다를 수 있다. 여러 종류의 평균 중에서 주로 사용되는 것은 산술평균, 중앙값, 최빈수의 3가지다. 평균을 구하는 대상이 되는 숫자들을 모두 더해서 숫자들의 개수로 나눈 값이 산술평균, 숫자를 작은 수부터 큰 수까지 순서대로 세운 뒤 가운데 위치하는 수가 중앙값, 가장 빈번하게 나타나는 값이 최빈수다. 이 중 산술평균이 가장 많이 사용되는데 문제는 숫자들의 분포가 어떤 모양을 갖느냐에 따라 적절한 평균이 달라진다는 점이다. 숫자들이 좌우 대칭의 종 모양 분포를 갖는다면 산술평균과 중앙값, 최빈수가 일치하므로 평균의 종류에 따라 해석이 달라질 여지가 없지만 숫자들의 분포가 좌우 대칭을 이루지 않는다면 어떤 평균을 사용하느냐에 따라 전혀 다른 해석이 가능하다.
예를 들어 보자. 50가구가 사는 어느 작은 산골마을의 사례다. 이 마을의 이장은 “우리 마을의 가구당 평균 소득은 500만 원으로 매우 가난하다”고 주장하고 복덕방 영감은 “우리 마을의 가구당 평균 소득은 1억여 원으로 부자다”라고 반박한다. 사실을 알고 보니 50가구 중에 25가구는 가난한 농가로 연 소득이 500만 원에 불과하다. 다른 24가구는 500만 원에서 2000만 원 사이의 소득을 올리고 있다. 나머지 한 가구는 서울의 한 사업가가 물 좋고 공기 좋은 곳에 내려와 사는 집으로 이 가구의 연 소득은 50억 원에 달한다. 저소득농민을 위한 각종 정부지원을 기대하는 마을 이장은 최빈수를 사용해 연소득 평균이 500만 원밖에 안 되는 마을이라고 주장한다. 반면 복덕방 영감은 은퇴 후 시골에서 살려는 사람들을 유인하기 위해 산술평균을 사용해 평균 소득이 1억여 원인 부자마을 휴양지라고 선전한다.
광고 로드중
“고액 연봉을 받는 소수의 스타 선수들이 있기는 하지만 선수들의 평균 연봉은 30만 달러 정도며 월 1000달러 정도의 저임금에 혹사당하고 있는 마이너리그 선수들까지 합하면 선수들의 평균 연봉은 약 1만 달러밖에 되지 않는다. 부상이나 성적 부진 등으로 수명이 짧고 선수들이 TV 속 스타들만큼 팬들에게 볼거리를 제공한다는 사실을 고려한다면 구단주들이 선수들에게 돌아가는 몫을 줄이려는 것은 부당한 처사다.”
당시 메이저리그 선수들의 평균 연봉(산술평균)은 구단주들이 주장하는 대로 120만 달러였다. 그러나 그 내용을 살펴보면 500만 달러 이상을 받는 소수의 고액 연봉 선수들부터 10만 달러 정도의 최저 임금을 받는 선수까지 다양한 분포를 보이고 있었다. 산술평균은 120만 달러였지만 중앙값은 그보다 훨씬 작은 40만 달러였고 최빈수는 30만 달러 정도였다. 만약 노조 지도부가 평균에 대해 조금만 더 알았더라면 반격할 수 있는 방법을 생각해낼 수 있었을 것이다.
평균을 활용할 때는 숫자들이 얼마나 흩어져 있는지도 함께 고려해야 한다. 예컨대 어느 대학에서 두 교수가 같은 과목을 가르친다고 하자. 두 교수 모두 평균적으로 C학점을 학생들에게 준다는 정보만 갖고 있다면 학생들은 두 교수 중 아무나 선택해도 비슷한 학점을 받을 것이라 생각할 수 있다. 하지만 한 교수는 대부분의 학생에게 C를 주고 다른 교수는 A를 주거나 D-를 주는 등 격차를 크게 둔다면 상황이 완전히 달라진다. 단지 평균만으로는 합리적인 의사결정을 내릴 수 없다. 올바른 판단을 내리기 위해서는 평균 주위의 흩어진 정도를 함께 고려해야 한다.
김진호 서울과학종합대학원 교수