[理知논술/교과서 통계 제대로 읽기]대푯값, 늘 대표노릇 할까

  • 입력 2007년 11월 5일 03시 00분


코멘트
우리는 통계자료를 통해 세상을 이해하고, 미래를 예측할 때가 많다. 그만큼 통계가 우리의 생활에 깊숙이 침투했다는 것이다. 언론을 통해 통계자료를 접하고, 이를 근거로 우리 사회의 미래를 낙관적으로 혹은 비관적으로 평가한다.

통계조사는 기본적으로 조사 대상을 대표하는 값을 찾고 이를 통해 그 집단의 △특징 △현상 △미래를 파악하려 하는 경우가 많다. 예를 들면 “국민 평균 소득이 ○○○만 원이다”, “우리 경제가 3년 사이에 ○○% 상승했다”, “학생들의 평균점수가 ○○점이다”, “우리나라 여성들의 합계 출산율이 ○명이다”와 같은 자료들이 이에 해당한다.




이처럼 한 집단의 특성을 수치로 표현하는 경우가 많은데, 이런 경우 무엇을 대푯값으로 삼느냐에 따라 현상을 올바로 볼 수도 있고, 왜곡되게 볼 수도 있다. 과연 어떤 점에서 그런지 대푯값의 종류와 특징을 살펴보자. <표1>은 대푯값의 유형이다. 각 유형의 특징을 살펴보자.

대푯값 중 우리가 가장 많이 사용하고 친숙한 것이 평균(mean) 중에서 산술평균이다. 조사대상의 값을 모두 더해 대상의 수로 나누는 방식이다. 즉, 큰 값에서 작은 값으로 이동하여 전체적으로 공평하게 분배한 양이다. 가장 손쉽게 계산할 수 있는 방법이지만 극단값이 있는 경우 대푯값의 의미를 상실할 수 있다.

중앙값(median)은 자료를 크기 순으로 배열했을 때 중앙에 위치한 값을 말한다. 만약 자료가 홀수이면 중앙에 있는 자료가 중앙값이지만, 자료의 개수가 짝수이면, 중앙 부근에 있는 두 개 자료의 산술평균값이 중앙값이다.

최빈값(mode)은 가장 빈도가 높은 수, 즉 자료 중 가장 많은 수를 말한다. 최빈값은 둘 이상 있을 수도 있고 하나도 없을 수도 있다. 공장에서 옷이나 신발을 생산하는 경우 가장 많이 생산할 사이즈를 정해야 하므로 이 자료를 활용한다.

<표2>는 15명으로 구성된 A회사의 월급이다. 산술평균, 중앙값, 최빈값으로 대푯값을 정해 보면 서로 다르다는 것을 알 수 있다. 특히 산술평균값과 큰 차이가 있는데 이러한 결과의 차이는 극단값(300, 400)이 있기 때문이다. 따라서 이 값을 A회사 월급의 대푯값이라고 보기 어려운 점이 있다.

만약 평균 월급을 중앙값으로 정했다면, 직원의 절반은 그보다 높은 월급을 받고, 나머지 절반은 그보다 낮은 월급을 받는다는 것을 알 수 있을 것이다. 최빈값은 자료의 중심에 가까운 수라는 의미는 없다. 단지 어떤 금액의 월급을 받는 사람이 가장 많은가를 보여 준다. 따라서 내가 보고 있는 통계자료가 어떤 대푯값을 사용했는지 모른다면, 자칫 현실을 왜곡해서 이해할 수도 있다.

자료의 분포에 따라 세 대푯값은 달라진다. 만약 자료가 대칭적인 구조를 갖는 경우 세 대푯값은 일치한다. 그러나 <표3>에서 알 수 있듯이 자료가 비대칭적인 구조인 경우 세 대푯값에도 차이가 나타난다. 따라서 자료의 분포를 살펴보는 것도 매우 중요하다. <표2>의 자료도 비대칭적 구조이기 때문에 대푯값에 차이가 나타난 것이다.

이처럼 통계자료에서 대푯값이 제시된 경우, 어떤 대푯값을 말하고 있는지, 자료의 분포가 어떤지 반드시 살펴봐야 한다. 다음 시간에는 산술평균, 기하평균, 조화평균의 차이에 대해 이야기해 보기로 하자.

윤상철 경희여고 철학교사

  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0
  • 추천해요

댓글 0

지금 뜨는 뉴스