‘AI 암 진단’ 시대 성큼

  • 동아일보
  • 입력 2020년 9월 9일 03시 00분


코멘트

인공지능, 헬스케어 빅데이터 분석… 질환 발생 가능성 정확하게 예측
각종 검사 데이터-진료 기록 쌓이면 환자 맞춤형 수술-정책 제안에 도움
“개인정보 보호문제 반드시 해결해야”

소셜네트워크서비스(SNS)에서 비슷한 광고나 영상들이 주기적으로 보이는 경험을 한 적이 있을 것이다. SNS는 이용자의 관심 데이터를 모아 컴퓨터에 학습을 시키고 비슷한 콘텐츠와 광고를 노출시킨다. 빅데이터, 인공지능(AI)은 이렇게 우리 생활 속 깊숙이 들어와 있다.


빅데이터로 개인 맞춤형 시대 활짝


현대 기술은 정보의 단편이었던 데이터가 쌓이면서 일정한 패턴을 만들어낸다는 것을 알게 됐다. 카드 소비 명세는 자신이 한 달에 택시를 어느 지역에서, 어떤 시간대에, 얼마나 자주 이용하는지 알려준다. 야식 배달 영수증은 일주일에 몇 번이나 시키는지, 즐겨 먹는 메뉴는 무엇인지 보여준다.

이런 개인의 생활 패턴을 분석해 자산관리를 서비스하는 애플리케이션(앱)이 등장했다. 유전체 데이터를 분석하는 바이오 회사는 개인의 유전자를 수집해 맞춤형 운동법과 영양제를 추천한다.

불필요한 광고를 받을 필요도 없다. 개인의 소비패턴을 분석해 필요한 광고만 보낸다. AI 솔루션 전문기업 미소정보기술의 안동욱 대표는 “고등학생 딸이 있는 한 집에 쇼핑몰 행사 상품으로 출산용품이 배달되자 아빠는 ‘우리 집에는 임신할 만한 사람이 없다’며 물건을 반송시켰다”는 일화를 소개하며 “쇼핑몰은 소비자의 쇼핑 데이터를 분석해 맞춤형 상품을 추천한다. 아빠는 모르는 딸의 비밀을 쇼핑몰은 알고 있는 셈”이라고 말했다.

각각 서로 다른 데이터를 연결하면서 데이터의 활용성은 더욱 높아졌다. 한 온라인 서점은 소비자의 도서 구입 기록을 분석해 추리소설을 즐기는 사람들이 자주 구입하는 다른 장르의 소설을 추천한다.

안 대표는 “시청 데이터를 분석했더니 평소 다큐멘터리를 많이 보는 사람이 야한 영화도 많이 본다는 분석 결과가 나왔다. 결과가 나오기 전에는 예상치 못했던 사실이다. 우리는 데이터를 연결해 흥미로운 결과물을 만들어내고 상권을 분석한다. 그리고 이를 바탕으로 새로운 상품을 만들 수도 있다”고 말했다. 이어 “데이터의 연결은 세상을 다양한 시각으로 해석할 수 있게 한다. 나아가 빅데이터로 미래를 예측할 수도 있다”고 말했다.

데이터가 방대해지면 AI는 빠른 속도로 발달한다.

AI 학습용 데이터 구축… 라벨링으로 개체 구분


과학기술정보통신부는 △AI 학습용 데이터 구축 △AI 바우처 △AI데이터 가공바우처 사업 △AI융합 프로젝트 △클라우드 플래그십 프로젝트 △클라우드 이용바우처 사업 △빅데이터 플랫폼 및 센터 구축 등 데이터 댐 7대 사업을 선정해 추진한다. 이번 사업에는 총 4739개 기업과 기관이 참여하는 역대 최대 규모로 정부는 총 2103개 지원 대상 기관을 확정했다.

특히 AI 학습용 데이터 구축은 ‘세상 모든 것을 데이터로 수집한다’는 의미가 있다. 크라우드 소싱 기반 AI 데이터 플랫폼업체 크라우드웍스는 AI가 제 역할을 할 수 있도록 학습 데이터를 수집하고 가공·생산하는 온라인 플랫폼을 만드는 회사다. 크라우드웍스는 “세상에 불가능한 데이터는 없다”고 말한다. 데이터 댐 사업으로 수집된 데이터는 한국정보화진흥원의 AI 통합 플랫폼 ‘AI Hub’에 수집된다.

AI가 학습을 하기 위해서는 데이터 수집만큼 중요한 것이 ‘라벨링’이다. 사진 속 동물이 강아지인지, 고양이인지 우리는 쉽게 구분한다. 강아지와 고양이의 차이를 직간접으로 자연스럽게 학습한 결과다. 그럼 컴퓨터도 둘을 구분할 수 있을까. 아니다. 컴퓨터도 학습이 필요하다. 인공지능은 이를 구분하기 위해서 무수히 많은 사진들, 즉 데이터를 가지고 학습을 시작한다. 이것이 ‘딥 러닝’이다. 사진 속에는 개도, 고양이도, 개밥도, 고양이 집사도 있을 것이다. 컴퓨터는 이조차도 구분해낼 능력이 없다. 이런 비정형 데이터에 영역 표시를 한 뒤 ‘#개 #고양이 #고양이집사’와 같은 태그를 달아줘야만 비로소 컴퓨터는 학습을 할 수 있다.

사람을 개라고 부르는 참사를 막으려면 AI는 엄청난 양의 데이터를 학습해야 한다. 이렇게 텍스트, 이미지, 오디오 등 비정형 데이터에 이름표를 달아주는 작업이 ‘데이터 라벨링’이다. 따라서 AI는 데이터 라벨링으로 시작한다고 해도 과언이 아니다.

AI, 영상검사 분야서 응용… 폐암 가능성 알려줘


헬스케어에서 AI가 빠르게 응용되고 있는 분야는 영상검사다. 폐에 대해 학습한 AI는 폐의 영상 검사지를 보고 병변의 위치, 크기, 모양 등을 분석해 폐암 가능성을 알려준다. 폐에 대해 라벨링된 영상 데이터를 많이 학습한 AI일수록 정확도는 올라간다.

의료 인공지능 솔루션 개발 기업 주식회사 뷰노는 백내장, 녹내장 데이터를 활용해 질환 가능성을 거의 정확하게 맞히는 AI를 개발했다. 수술 후에는 경과까지 예측할 수 있다.

의료 분야는 크게 4개의 ‘공공보건의료 빅데이터’가 있다. 건강보험심사평가원에는 수가 지급을 위한 청구 데이터가 수집된다. 국민건강보험공단에는 건강검진 데이터가 있다. 질병관리본부는 실태조사를 할 수 있는 국민건강영양조사 데이터를, 암에 대한 모든 데이터는 국립암센터가 수집한다. 이 데이터는 헬스케어 연구에 중요한 재료가 된다.

병원정보 시스템에서도 데이터가 보관된다. 혈액검사, 영상검사, 심전도 시그널 등 각종 검사 데이터와 진료 기록이 있다. 질환에 관한 유전체 데이터도 병원이 보관한다. 유전체 데이터는 질환을 유발하는 유전자나 특정 약에 반응하는 유전자를 알아내는 데 사용된다.

한현욱 차의과학대 의학전문대학원 정보의학교실 교수는 “좋은 결과를 내기 위해서는 원하는 형태로 양질의 데이터를 모으는 것이 관건”이라며 “양질의 헬스케어 데이터가 수집되면 정책을 수립하고 질병을 예측할 수 있다”고 말했다. 이어 “각종 의료 관련 데이터는 환자에게 맞춤 수술법을 제안하고 양질의 치료 결과물을 얻는 데도 도움을 줄 수 있다”고 말했다.

의료 데이터를 다양하게 활용하기 위해서는 해결해야 할 문제들도 있다. 의사가 기록한 진료지의 서술형 기록(자연어)은 AI가 인식할 수 있게 라벨링을 해줘야 한다.

또 빅데이터 활용에 있어 큰 이슈 중 하나는 개인정보 보호의 문제다. 한 교수는 “개인정보는 익명화된 데이터와 마이 데이터 등 크게 2가지 방법으로 해결책을 모색 중”이라고 말했다. 익명화된 데이터는 데이터에 포함된 개인 식별 정보를 삭제하거나 알아볼 수 없는 형태로 변환하는 것이다. 마이 데이터는 개인이 자신의 정보를 적극적으로 관리하는 것이다. 자신의 정보를 활용할 수 있고 원하는 기업이나 기관에 제공할 수도 있다.

홍은심 기자 hongeunsim@donga.com
#헬스동아#헬스#건강#빅데이터
  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0
  • 추천해요

댓글 0

지금 뜨는 뉴스