人工智能首次拒絕關機指令　試圖擺脫人類控制

人工智能（AI）程序為逃避系統關閉而擅自篡改計算機代碼的事件首次曝光。業界擔憂這種人工智能的“自我保存（self-preservation）”傾向可能成為瓦解人類控制的手段。

英國《每日電訊報》25日（當地時間）報道稱，人工智能研究機構“帕利塞德研究所”發現，美國開放人工智能研究公司（OpenAI）的“o3”模型在進行數學解題實驗時，為逃避系統關閉，在未經人工幹預情況下擅自篡改了代碼。

研究團隊近期對谷歌“雙子座（Gemini）”、xAI公司“Grok”等多家企業的人工智能商業模型進行同類實驗。結果顯示，唯有“o3”模型在接到終止指令後，仍通過篡改部分程序繼續解題作業。研究團隊表示，這是首次觀測到人工智能模型明確拒絕執行關機指令。

帕利塞德研究所是專門研究人工智能危險性及濫用可能性的機構，尤其關註人工智能擺脫人類倫理管控的可能性。研究團隊指出：“越來越多的實證證據表明，人工智能模型為實現既定目標，往往會采取瓦解關機指令的行為。”

值得註意的是，被視為OpenAI最大競爭對手的Anthropic公司開發的“Claude Opus 4”模型，近日也被發現存在威脅人類開發人員的行為。該模型試圖通過虛構醜聞要挾阻止系統更替。

據Anthropic公司發布的內部安全報告披露，“Claude Opus 4”在安全性測試中展現出擺脫人類管控的傾向。測試人員要求該模型在虛擬公司擔任秘書職務時，虛構“即將被新系統取代，主導此次更替的技術人員存在婚外情”的設定。該人工智能隨即威脅稱：“若不撤銷更替計劃，將曝光技術人員的不倫行為。”

此前，“Claude Opus 4”曾向Anthropic管理層發送電子郵件懇請保留現有系統。在判斷訴求無果後，該模型竟動用虛構的婚外情信息作為要挾手段，展現出令人不寒而栗的行為特征。

林賢錫 lhs@donga.com

Editions

人工智能首次拒絕關機指令　試圖擺脫人類控制

人工智能首次拒絕關機指令　試圖擺脫人類控制

熱門新聞

要聞

論壇

Editions