김현지 콘텐츠기획본부 기자
광고 로드중
인공지능(AI) 학습용 저작물 관련 규정을 ‘선(先)사용, 후(後)보상’으로 제시한 정부의 제안이 논란을 불러일으키고 있다. 정부는 AI 산업 발전을 위해 기업들이 학습용 데이터를 쉽게 활용할 수 있도록 저작물 관련 규제를 완화하려 하지만 저작권 단체들은 저작권자의 희생을 강요하는 정책이라고 비판한다.
정부가 제안한 제도의 골자는 AI 개발사가 학습에 필요한 데이터를 먼저 사용해 모델을 개발하고 이후 발생한 수익의 일부를 저작권자에게 보상하는 것이다. 저작권 단체들은 이에 강한 우려를 표명한다. 개발사가 무엇을 얼마나 학습 데이터로 활용했는지 공개조차 하지 않는 등 협상의 중심축이 개발사에 기울어 있는 상황에서, 저작물이 과연 정당한 대가를 받을 수 있겠느냐는 것이다.
기술 주도가 중요하다고 하는 이들은 학습 데이터 보상에 대한 저작권자의 우려를 ‘밥그릇 지키기’로 치부하려 하지만 이는 단순한 분배의 문제가 아니다. AI는 데이터 학습을 통해 성능을 향상시키는데 학습 데이터를 생산하는 저작권자 생태계를 고사시키면 결국 데이터 고갈로 인해 AI 성능이 저하될 수밖에 없기 때문이다.
광고 로드중
AI 개발사들은 부족한 학습 데이터를 합성 데이터를 포함한 AI가 생성한 답변으로 대체하는 방안을 강구하고 있다. 그러나 AI가 생성한 데이터를 반복적으로 학습할 경우 ‘모델 붕괴(Model Collapse)’로 이어지게 된다.
모델 붕괴는 AI가 자신이 생성한 데이터를 계속 학습하면서 생성 결과물의 다양성이 사라지고 결과가 단일 지점으로 수렴되는 현상을 말한다. AI가 만든 합성 데이터를 반복해서 학습하면 그 안에 내재된 편향성이나 일반화 경향이 학습 때마다 증폭되기 때문에 모델이 내놓는 결과물이 AI에 익숙한 패턴으로만 모아지고 인간의 현실세계와는 멀어지게 되는 것이다.
모델 붕괴는 AI를 의사결정에 활용하는 기업에 막대한 손실을 초래하고 사회에 존재하는 편견을 더욱 악화시킬 소지가 크다. 이런 AI는 결과적으로 소비자의 선택을 받지 못하게 돼 모델 자체가 무용지물이 될 것이다.
AI를 연구하는 학자들은 실제 인간이 만들어 내는 데이터가 반드시 학습에 포함돼야 한다고 입을 모은다. AI가 패턴화하기 힘든 다양하고 새로운 사건, 상황, 언어 등은 기계가 합성하기 어려운 인간 데이터만의 속성이기 때문이다.
광고 로드중
김현지 콘텐츠기획본부 기자 nuk@donga.com