[꿈에 도전하는 첨단/음성인식 컴퓨터]

  • 입력 1996년 12월 26일 20시 24분


「요크타운 하이츠(미국)〓金昇煥기자」 『사람의 말을 컴퓨터가 제대로 알아듣게 된다면 다른 차원의 컴퓨터 문명이 탄생할 것이다』 지난 20여년 이상 사람 말을 알아듣는 컴퓨터는 단지 꿈이었으며 상상의 세계에서나 가능했다. 최근 몇년사이 음성인식 시스템이 등장했지만 슈퍼 컴퓨터를 몇대씩 연결한 연구실에서 기껏 서너살바기 아이가 알아듣는 정도를 이해하는 것이 고작이었다. 그러나 지난 9월말 IBM이 음성인식 기능을 PC용 운영체제에 처음 집어넣음으로써 이제 일반인도 컴퓨터에 말로 명령을 내리거나 편지를 대신 쓰게 할 수 있게 됐다. 미국 뉴저지주 요크타운 하이츠에 위치한 IBM 중앙연구소에서 음성인식 연구를 시작한 것은 지난 72년. 즉 IBM의 PC 운영체제인 「OS/2 멀린」에 들어 있는 음성인식 및 받아쓰기 기능은 24년간의 연구 결실인 것이다. 지난 92년 IBM은 처음으로 음성 컴퓨터를 세상에 발표했다. 아주 값비싼 전용 컴퓨터에서만 사용이 가능한 수준이었다. 음성인식 기술도 다른 정보통신 기술의 빠른 발전에 힘입어 최근 몇년 사이 급격하게 성장했다. 이제는 컴퓨터가 사람의 말을 95% 정도 알아듣는 수준에까지 이르렀다. 물론 이것은 사람이 하는 말 대부분을 이해한다는 뜻은 아니다. 각각의 단어를 기계적으로 듣고 그 단어가 무엇인지를 가려낼 수 있다는 뜻이며 문장 전후의 문법적 관계나 의미를 이해하는 능력은 포함되지 않은 개념이다. 그러나 전문가들은 기초적인 음성 인식의 정확도가 95∼96%까지 이르면서 다양한 응용 프로그램을 만들 수 있는 바탕이 마련됐다고 입을 모은다. 일반인을 상대로 병원이나 관공서 등 특정한 분야에서 서비스를 하기 위해 필요한 소프트웨어라면 이 정도 음성인식률이면 충분하다는 것. IBM 중앙연구소는 최근 음성인식 기능을 이용해 생활을 편리하게 하거나 업무의 효율성을 높일 수 있는 소프트웨어를 집중 개발하고 있다. 예를 들어 X레이 사진이나 컴퓨터 단층 촬영한 사진 데이터베이스 중에서 원하는 환자의 자료 사진이나 비슷한 유형의 질병을 앓았던 환자 사진을 음성으로 찾도록 한다. 비슷비슷한 사진중에서 필요한 것을 찾는데는 키보드로 글을 입력하거나 마우스로 일일이 사진 자료를 뒤적이는 것보다 말로 하는 것이 편하기 때문이다. 공항에서 필요로 하는 각종 상황을 종합 안내해주는 음성인식 시스템도 개발하고 있다. 이 시스템 앞에 서서 마이크를 통해 △원하는 비행기 △가고 싶은 곳 △휴가 예산 등을 얘기하면 거기에 맞는 운항 스케줄을 보여주는 것은 물론 비행기 좌석현황을 알아보거나 예약도 할 수 있다. IBM은 공항 음성인식 시스템을 개발하면서 몇가지 음성인식 기술의 전진을 가로막는 걸림돌을 넘어서려고 한다. 우선 2000년까지 완성을 목표로 하고 있는 이번 시스템이 개발되면 잡음 제거기술에 획기적인 발전을 이룩할 것으로 본다. 공항 터미널처럼 시끄럽고 복잡한 곳에서는 음성인식 시스템을 이용하는 사람의 목소리를 정확하게 끄집어내고 들을 수 있는 능력이 있어야 하기 때문이다. 또 공항은 여러 나라에서 온 다양한 계층의 사람들이 몰려 있는 곳이기 때문에 말하는 사람의 발음이나 억양, 주로 쓰는 단어들이 달라 이같은 변수를 조정해 들을 수 있는 기능이 필수적이다. 이에 따라 각 나라 출신의 영어 발음 특성을 유형화하고 이를 데이터베이스로 만들어 특정한 유형의 영어발음이 들리면 이를 그 나라 음성데이터베이스와 자동 연결하는 작업을 하고 있다. IBM을 비롯한 AT&T 마이크로소프트 등 미국 기업과 유럽 일본 정부가 21세기를 대비한 국책 연구과제로 음성인식 시스템을 우선 순위에 놓고 있는 것은 음성인식 시스템이 차세대 인간형 컴퓨터를 만드는데 핵심이라는 판단 때문이다. 사람의 말을 어느 정도 알아듣기만 한다면 지금은 하기 어려운 여러가지 일을 컴퓨터나 TV 오디오 등 가전 제품에서 해낼 수 있으며 생활의 편리함을 가져다 준다. 수십개의 TV 채널중에서 원하는 방송프로그램을 보기 위해 방향키를 여러번 누르거나 숫자를 누를 필요없이 간단하게 방송사 이름이나 드라마 이름을 대면 되기 때문이다. 최근에는 음성인식기술의 빈틈을 메워주면서 사용자의 뜻을 보다 잘 이해하기 위한 다중 인식기술 개발이 시작되고 있다. 음성인식과 화상인식기술을 결합해 컴퓨터가 목소리는 물론 사용자의 입술 모양 몸동작 등을 종합해 이해함으로써 사용자의 의도를 알아차릴 수 있도록 한다는 계획이다. 2000년대 초반 다중 인식 기술이 상용화되면 사람과 만나서 얘기하듯 컴퓨터를 쓸 수 있는 시대가 열린다. 자주 쓰는 사용자를 보면 컴퓨터는 눈빛만 보고도 원하는 일을 해낸다. IBM은 여기에다 대용량 음성합성과 무제한 음성인식 기술을 보탬으로써 궁극적으로는 사람과 자연스럽게 얘기하고 중간에서 통역해줄 수 있는 컴퓨터를 만들겠다는 꿈에 새롭게 도전하고 있다.
  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0

지금 뜨는 뉴스