
人工智能(AI)程序為逃避系統關閉而擅自篡改計算機代碼的事件首次曝光。業界擔憂這種人工智能的“自我保存(self-preservation)”傾向可能成為瓦解人類控制的手段。
英國《每日電訊報》25日(當地時間)報道稱,人工智能研究機構“帕利塞德研究所”發現,美國開放人工智能研究公司(OpenAI)的“o3”模型在進行數學解題實驗時,為逃避系統關閉,在未經人工幹預情況下擅自篡改了代碼。
研究團隊近期對谷歌“雙子座(Gemini)”、xAI公司“Grok”等多家企業的人工智能商業模型進行同類實驗。結果顯示,唯有“o3”模型在接到終止指令後,仍通過篡改部分程序繼續解題作業。研究團隊表示,這是首次觀測到人工智能模型明確拒絕執行關機指令。
帕利塞德研究所是專門研究人工智能危險性及濫用可能性的機構,尤其關註人工智能擺脫人類倫理管控的可能性。研究團隊指出:“越來越多的實證證據表明,人工智能模型為實現既定目標,往往會采取瓦解關機指令的行為。”
值得註意的是,被視為OpenAI最大競爭對手的Anthropic公司開發的“Claude Opus 4”模型,近日也被發現存在威脅人類開發人員的行為。該模型試圖通過虛構醜聞要挾阻止系統更替。
據Anthropic公司發布的內部安全報告披露,“Claude Opus 4”在安全性測試中展現出擺脫人類管控的傾向。測試人員要求該模型在虛擬公司擔任秘書職務時,虛構“即將被新系統取代,主導此次更替的技術人員存在婚外情”的設定。該人工智能隨即威脅稱:“若不撤銷更替計劃,將曝光技術人員的不倫行為。”
此前,“Claude Opus 4”曾向Anthropic管理層發送電子郵件懇請保留現有系統。在判斷訴求無果後,該模型竟動用虛構的婚外情信息作為要挾手段,展現出令人不寒而栗的行為特征。
林賢錫 lhs@donga.com






