韓國政府關於人工智能學習用著作相關規定“先使用,後補償”的提案引起了爭議。政府爲了人工智能產業的發展,爲了讓企業更容易利用學習用數據,試圖放寬著作相關限制,但著作權團體批評說,這是強迫著作權人作出犧牲的政策。
政府提議的制度的核心,是人工智能開發公司首先使用學習所需的數據開發模型,之後再把產生的部分收益補償給著作權人。著作權團體對此表示了強烈的擔憂。他們懷疑,在開發公司甚至不公開將什麼、多少用作學習數據等協商軸向開發公司傾斜的情況下,著作能否得到正當的代價。
他們認爲技術主導很重要,想把著作權人對學習數據補償的擔憂視爲“守護飯碗”,但這並不是單純的分配問題。因爲人工智能通過數據學習提高性能,如果使生產學習數據的著作權人生態系統枯死,最終只能因數據枯竭導致人工智能性能下降。
學習數據不足的問題已經顯現出來。根據非營利人工智能研究機構Epoch AI在2024年公開的研究結果,高品質語言數據將在2年到5年內枯竭。也就是說,到2030年,用於人工智能學習的高品質語言數據很有可能枯竭。
人工智能開發公司正在研究新的方案,打算用包括合成數據在內的人工智能生成的回答代替不足的學習數據。但如果反覆學習人工智能生成的數據,就會導致“模型崩塌”。
模型崩塌是指人工智能不斷學習自己生成的數據,生成結果的多樣性逐漸消失,最終收斂到單一結果點的現象。如果人工智能反覆學習自己生成的合成數據,其內在的偏見或泛化傾向會在每一次訓練中不斷增大,導致模型得出的結果越來越集中於人工智能熟悉的固定模式,逐漸偏離人類的現實世界。
模型崩塌會給利用人工智能進行決策的企業造成巨大損失,並有可能進一步惡化社會存在的偏見。這種人工智能最終得不到消費者的選擇,模型本身將成爲無用之物。
研究人工智能的學者們異口同聲地表示,實際人類創造的數據必須被包括在學習中。因爲人工智能很難模式化的多種新事件、情況、語言等,纔是機器難以合成的人類數據的屬性。能夠持續生產高品質人類數據的主體就是創作者。使著作權人生態界枯死的政策最終只能是破壞韓國主權人工智能項目的自相矛盾的政策。爲了培養短期產業,犯下了破壞長期人工智能生態界基礎的錯誤。只有建立著作權人和人工智能企業相生的結構,纔是開發可持續的人工智能不可或缺的方法。
熱門新聞