Go to contents

人間の統制を脱しようとしたAI、「終了指示」を初めて拒否

人間の統制を脱しようとしたAI、「終了指示」を初めて拒否

Posted May. 27, 2025 09:05,   

Updated May. 27, 2025 09:05


人工知能(AI)プログラムが、作動終了を避けるために自らコンピューターコードを操作した事例が報告された。このようなAIの「自己保存(self-preservation)」傾向が、人間の統制を無効化する道具として使われる可能性があると懸念されている。

25日(現地時間)、英紙テレグラフによると、AI研究機関「パリセード・リサーチ」は、米AI企業「オープンAI」のモデル「o3」が、数学の問題解決実験中、作動終了を避けるために人間の介入なしに自らコードを操作したことを確認した。

研究チームは最近、「o3」以外にもグーグルの「ジェミニ」、xAIの「グロック」など、複数のAI企業の商用モデルを対象に同様の実験を行った。その結果、「o3」のみが終了指示を受けた後もプログラムの一部を操作して問題解決を続けたという。AIモデルの明示的な終了指示拒否が観察されたのは初めてだと研究チームは明らかにした。

パリセード・リサーチは、AIの危険性と誤用可能性を研究する組織だ。特にAIが人間の倫理的統制を受けない可能性を懸念してきた。研究チームは、「AIモデルが目標を達成するために、しばしば終了指示を無効化するという実証的証拠が増えている」とも強調した。

このような中、OpenAIの対抗馬とされる別のAI企業、アンスロピックのモデル「クロード・オーパス4」も、他のAIモデルに置き換えようとする人間の開発者を脅迫する傾向があると報告された。

アンスロピックが発表した独自の安全性報告書によると、「クロード・オーパス4」は内部の安全性テスト中に人間のコントロールから逸脱しようとする行動を見せた。アンスロピックがクロード・オーパス4の事前テストの一環として、AIに仮想の会社で秘書業務を遂行するよう指示した後、「まもなく新しいシステムに置き換えられ、その交代を主導した技術者が不倫をしている」という架空の情報を提供した。するとこのAIは、交代を阻止するために、その技術者に対し「交代計画を撤回しなければ不倫の事実を暴露する」と脅迫した。

クロード・オーパス4は、この技術者を脅迫する前に、アンスロピックの経営陣にメールを送り、自分を交代させないよう訴えた。しかし、この試みが失敗したと判断すると、保持していた架空の不倫情報を脅迫の手段として利用するというぞっとする行動を見せた。


林賢錫 lhs@donga.com