[광화문에서/김현지]AI에 학습시키지 않을 데이터도 중요하다

동아일보
입력 2023년 3월 5일 21시 30분

김현지 기자

챗GPT가 공개된 후 여러 기대와 우려가 쏟아지고 있지만 사람들의 관심은 아무래도 직업의 미래에 쏠려 있지 않나 한다. 내 직업이 사라지지 않을지, 새로 뜨는 직업은 무엇일지, 지금 잘나가는 직업이 미래에도 잘나갈지는 각자의 생존과 직결된 문제다.

기사 댓글 2303개를 분석해보니 언급량이 특히 많은 직업은 ‘판사’(빈도수 상위 47위), ‘교수’(91위), ‘검사’(197위), ‘의사’(228위) 등이었다. “AI 판사가 공정한 사회에 크게 도움 될 것”(get0****), “AI 의사가 진료를 보면 오진이 줄어들 게 확실”(onsa****)이라는 맥락이다.

직관과 경험에 의존하고 이해관계에 얽힌 인간의 판단보다 데이터에 기반한 AI가 좀 더 정확하고 편견 없는 결론을 내려 줄 것으로 기대하는 것이다.

그런데 정말 AI 판사가 인간 판사보다 공정한 판결을 내려 줄 것으로 기대해도 좋을까? AI 의사는 오진 없는 진단을 내려 줄 것이라고 확신할 수 있을까?

과학 학술지 사이언스는 2019년 AI 의료 솔루션 ‘옵텀’이 흑인 환자보다 백인 환자에게 의료 처치가 더 집중되도록 유도했다는 연구 결과를 발표했다. 의료 자원이 백인에게 쏠려 있던 과거 데이터를 옵텀이 학습한 탓이다. 아마존의 AI 채용 시스템은 여성 지원자에게 낮은 점수를 준 것으로 드러나 물의를 빚었다. 남성 지원자 위주의 채용 데이터를 학습했기 때문이다.

AI가 내놓은 편향적 정보나 결정 때문에 직간접적으로 피해를 보는 사람이 생긴다면 누가 책임져야 할 것인가. 알고리즘 개발자인가, 학습 데이터를 만든 기획자인가? 오류 우려가 있음에도 성급하게 제품을 출시한 회사의 책임인가, AI 개발과 활용을 시장에만 맡겨 놓은 정부의 책임인가?

AI의 오류 문제는 AI의 상업적 성공에 적지 않은 도전이 될 것이다. 개발사는 애써 개발한 시스템을 갈아엎어야 할 수 있다. 오류가 반복되면 사람들은 더 이상 AI의 판단을 신뢰하지 않게 될 것이다. 피해자는 피해를 구제 받기도 힘들 것이다. 사회적 혼란이 가중될지도 모른다.

AI에게 무엇을 학습시킬지뿐 아니라 무엇을 학습시키지 말아야 할지에도 각별히 주의를 기울여야 하는 이유가 여기 있다. 예컨대 법률적 판단을 도울 AI를 만든다면 학습할 데이터세트에 편향되거나 잘못된 정보가 있지 않은지 사전 모니터링해야 할 것이다. 의료 솔루션을 만든다면 의학 최신 지견을 반영할지 말지 전문가들의 승인을 받는 절차가 필요할 것이다.

AI 학습 데이터를 만드는 일은 힘든 일이지만 학습시키면 안 되는 데이터를 골라내는 일은 더 힘든 일일 수 있다. 특히 많은 사람에게 영향을 미치는 이슈와 관련해선 데이터세트에 넣지 않을 데이터를 결정할 때 그 사회의 가치관이나 윤리관이 반영되는 경우도 적지 않을 것이다.

그래서 AI 전문가들은 AI 학습 데이터의 개발과 활용을 시장에만 맡기지 말고 정부가 적극 나서야 한다고 역설한다. 우리 정부가 2020년 발표한 인공지능 윤리기준은 인권선언 수준의 추상적 지침에 그쳤다. 각 실무 단계에서 방향타로 사용할 수 있는 보다 구체적인 지침을 만드는 시점이 더 늦어져서는 안 된다.