공공데이터, 量 적고 쓸모없는 파일 많아… 기업들 외면

  • 동아일보
  • 입력 2016년 5월 18일 03시 00분


코멘트

[‘빅데이터 후진국’ 한국]<下> 활용 어려운 공공데이터

법과 규제로 데이터 활용이 막힌 한국의 상황에서 민간 기업, 특히 스타트업들이 활용할 수 있는 거의 유일한 데이터 자원은 ‘공공데이터’다. 공공데이터란 정부나 공공기관이 생산, 보유, 관리하는 행정, 경제, 인구, 기상, 교통 등 여러 분야의 데이터를 말한다.

하지만 국내 공공데이터양이 선진국에 비해 턱없이 적다. 그나마 사용할 수 있는 공공데이터도 파일 형태가 중구난방이고 무의미한 콘텐츠가 많아 활용도도 크게 떨어진다.

○ 핵심 빠진 중구난방 공공데이터

한국의 공공데이터포털과 미국의 데이터USA 사이트에서 똑같이 ‘교육(education)’이라는 키워드를 입력해봤다. 국내의 경우 ‘교육’이라는 단어가 포함된 온갖 파일이 단순히 나열됐다(맨위쪽 사진). 하지만 데이터USA는 교육 관련 미국의 공공데이터를 다양한 관점에서 분석해 카테고리를 만들었고, 그 결과를 시각화해 보여줬다(맨아래쪽 사진). 출처 각 사이트
한국의 공공데이터포털과 미국의 데이터USA 사이트에서 똑같이 ‘교육(education)’이라는 키워드를 입력해봤다. 국내의 경우 ‘교육’이라는 단어가 포함된 온갖 파일이 단순히 나열됐다(맨위쪽 사진). 하지만 데이터USA는 교육 관련 미국의 공공데이터를 다양한 관점에서 분석해 카테고리를 만들었고, 그 결과를 시각화해 보여줬다(맨아래쪽 사진). 출처 각 사이트
현 정부는 2013년부터 ‘정부 3.0’ 정책과 함께 각 부처 및 지자체에 적극적인 데이터 개방을 요구해 왔다. 개방된 자료는 ‘공공데이터포털’(www.data.go.kr)에 주로 올라오는데 17일 현재 총 1만6907건의 데이터가 등록돼 있다.

하지만 이 데이터 중 상당수는 활용할 수가 없다. 전체 자료 중 활용성이 높은 오픈 API(프로그램 명령어 덩어리) 형태는 1963건, 데이터 개방 기준을 통일한 표준데이터 형태는 10건에 불과하고 나머지 1만4934건의 자료는 파일 자료다. 이 파일들은 형태가 한글, PDF, 엑셀 등 제각각이고 같은 주제의 자료도 입력 기준이 달라 사실상 가공할 수 없다.

내용 역시 공공데이터라 하기엔 실망스러운 게 적지 않다. 가령 교육행정조직 분야에 있는 232건의 자료 중 가장 최신 자료는 경기도교육연수원의 원격연수 일정으로, 한글파일로 작성된 2013년 연수 시간표가 단편적으로 올라와 있을 뿐이다. 양질의 콘텐츠라고 보기 힘든 데이터가 많다 보니 활용도도 낮다. 창조경제연구회에 따르면 국내에서 활용되고 있는 공공데이터의 76%는 교통데이터다.

○ 법과 예산에도 발목 잡혀

지방자치단체의 한 공무원은 “정보화 담당자도 따로 없는데 공공데이터를 올려야 하니 가욋일만 느는 셈”이라며 “중요한 걸 올리면 문제가 될까 봐 일단 면피성 자료를 올린다”고 귀띔했다. 또 다른 중앙 부처 공무원은 “개인정보보호법 등 엄격한 법이 있는 이상 공무원은 절대 움직일 수가 없다”며 “이런 법이 한둘이 아닌 상황에서 잘못 공개했다 문제가 생기면 개인이 책임져야 하는데 누가 적극적으로 나서겠느냐”고 반문했다.

한국정보화진흥원 공공데이터활용 지원센터의 장주병 공공데이터 활용팀장은 “실제 현장에 나가 보면 정보화담당관실이 아예 없어진 곳이 많다. 데이터 관리 인식도 약해 뭐가 문제인지조차 모르는 경우가 있다”며 “각 기관을 컨설팅하고 잘하는 곳에 인센티브를 주는 작업이 필요하지만 예산이 태부족이라 속도가 나지 않고 있다”라고 지적했다.

정부 역시 공개 건수에 비해 쓸 만한 데이터가 부족하다는 데에 동의한다. 이 때문에 행정자치부는 지난해부터 국가 중점개방 데이터 사업을 추진하고 있다. 민간 수요가 크고 가치가 높다고 판단된 36개 데이터 분야를 선정해 관련 분야 데이터를 정해진 기준에 맞춰 통째로 개방하는 사업이다.

이미 공개된 공공데이터를 일반인이나 민간 기업들이 이해하기 쉽도록 ‘가공’하는 부분에서도 한국은 갈 길이 멀다. 예를 들어 ‘데이터 시각화(visualization)’는 숫자가 ‘의미’를 갖도록 보여준다는 점에서 중요하지만 국내 공공데이터포털에서 차트나 지도, 그리드와 같은 시각화 자료는 0건이다.

반면 미국에서는 ‘미국의 공공데이터를 가장 이해하기 쉽게 보여주겠다’는 목표 아래 정부와 매사추세츠공과대(MIT) 미디어랩, 딜로이트가 함께 ‘데이터USA’(datausa.io)를 만들어 운영 중이다. 이 사이트에서는 원하는 키워드를 입력하면 그간 공개된 방대한 양의 공공데이터가 다채로운 기준에 따라 일목요연하게 시각화돼 보여진다. 교육기관 수, 고용 동향, 학위 취득 현황 및 지역별 분포 등 수십 개 지표를 한눈에 확인할 수 있다.

행정자치부 공공정보정책과의 심준형 사무관은 “데이터USA와 같은 프로젝트는 우리 정부도 적극적으로 참고할 만한 사업이지만 막대한 비용과 인력이 필요한 게 문제”라며 “미국처럼 공공데이터 가공사업을 특정 기업과 협력해 하기에는 여론 반발이 있을 수 있다는 점도 부담 요인”이라고 말했다.

○ “원천 데이터 여러 형태로 가공해야”

IT 전문가들은 공공데이터 활용을 위해선 ‘한국적 해결책’을 찾아야 한다고 조언하고 있다. 한국은 어느 나라보다 강력한 정보 규제, 제한된 예산, 정보 공유에 대한 국민들의 불신 등과 같은 특수성을 갖고 있다. 규제와 불신에 발이 묶여 글로벌 데이터산업 경쟁에서 도태돼서도 안 되지만, 산업에서 앞서나가자고 법과 국민정서를 무시하고 무조건 데이터를 열 수도 없다.

정부의 공공빅데이터 전문위원장을 맡고 있는 이원석 연세대 컴퓨터과학과 교수는 “원천 데이터를 여러 단계로 가공하는 작업이 중요하다”고 강조했다. 예를 들어 공공데이터를 감자에 비유하면 감자를 원상태 그대로 시장에 내놓는 것이 아니라 채를 썰거나 다지는 등 원래의 모양(개인)을 알 수 없도록 가공(비식별화)해 시장에 제공해야 한다는 것이다.

이 교수는 “데이터를 ‘중간재’ 형태로 가공해 유통하면 이 가공 과정에서 다양한 민간산업과 일자리도 만들 수 있다”며 “‘데이터 활성화법’을 마련해 개인정보보호도 확실히 하면서 데이터 산업이 꽃필 길도 열어줄 필요가 있다”고 조언했다.

그는 “결국 공공데이터를 비롯한 빅데이터가 풀려야 사물인터넷도 풀리고 인공지능도 풀린다”며 “지금 상태로 시간만 보내다가는 정보기술(IT) 강국이라는 국가 입지도 잃어버릴 수 있다”고 말했다.

임우선 기자 imsun@donga.com·정세진 기자
#공공데이터#빅데이터#기업#법#규제
  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0
  • 추천해요

댓글 0

지금 뜨는 뉴스