“생성형 AI 학습, 저작권 침해·데이터 고갈 우려…조달시장으로 예방”

뉴스1
입력 2024년 3월 25일 15시 37분

영국 의회 소속 전문기관이 생성형 인공지능(AI) 학습 과정에서 저작권을 훼손할 수 있다는 내용의 보고서를 냈다.

이를 해결할 수 있는 해법으로는 양지에서 데이터를 정당하게 거래하는 조달 시장을 제안했다.

양질 언어 데이터가 2026년 고갈된다는 전망도 나와 데이터 시장 중요성은 커질 전망이다.

25일 한국저작권위원회에 따르면 영국 상원 의회 통신·디지털위원회는 ‘대형언어모델과 생성형AI’ 보고서를 지난달 공개했다.

앞서 위원회는 AI 업체, 데이터 권리자 등 다양한 이해관계자 의견을 청취했다. 대형언어모델(LLM)이 학습 등 고도화 과정에서 데이터 저작권을 침해할 수 있다는 우려가 제기됐다.

마이크로소프트 등 AI기업은 영국 저작권법 등을 근거로 학습을 목적으로 한 기술 활용에 특혜를 줘야 한다고 주장했다. 반면 미국 포토 에이전시인 게티이미지는 AI 학습 역시 데이터 소유주에 사전 허락을 구해야 한다며 이 주장을 반대했다.

위원회는 ‘데이터 조달 시장’을 해결책으로 제시했다. AI 기업이 데이터 라이선스에 정당한 비용을 지불하고 양질의 데이터를 공급받으면 이같은 문제가 해소된다는 것이다.

위원회는 “AI 기업은 웹상 정보를 어디서 탐색·수집했는지(웹 크롤링) 밝혀 저작권자가 확인할 수 있게 해야 한다”며 “정부는 법의 제·개정을 통해 관련 분쟁을 종결시킬 책임이 있다”고 제언했다.

또 올해 공개 예정인 ‘AI 저작권 행동강령’을 통해 저작권 보호를 명문화해야 한다고 했다.

이런 규제 강화는 장기적 관점에서 AI 기업에 도움이 될 수 있다.

학습에 필요한 양질 데이터가 곧 고갈될 것이란 전망이 나오기 때문이다. 데이터 조달 시장이 안착하면 데이터 공급이 활성화할 수 있다.

AI 기업 Epoch 연구진은 2022년 논문 사전 공개 사이트 아카이브(arXiv)에 관련 연구 결과를 내놓기도 했다. 연구에 따르면 모델 고도화에 필수적인 고품질 언어 데이터는 2026년 소진된다. 언어 데이터 재고의 성장률 역시 현재 연간 7%에서 2100년까지 1%로 둔화한다.

업계 차원에서 이를 대비하려는 움직임도 포착된다.

국내의 경우 업스테이지가 지난해 ‘1T 클럽’을 발족해 1조 토큰(데이터 최소 의미 단위)을 목표로 데이터를 수집했다. 외국어 중심으로 고도화된 LLM의 한국어 실력을 키우는 한편 저작권 문제도 해결하려는 목적이다. 파트너사는 제공 대가로 업스테이지의 응용 프로그램 인터페이스(API) 사용 관련 혜택을 받았다.

업스테이지 관계자는 “LLM 고도화에 필요한 양질의 데이터를 충분히 모을 수 있었다”고 설명했다.

(서울=뉴스1)