人間の統制を脱しようとしたＡＩ、「終了指示」を初めて拒否

人工知能（ＡＩ）プログラムが、作動終了を避けるために自らコンピューターコードを操作した事例が報告された。このようなＡＩの「自己保存（self-preservation）」傾向が、人間の統制を無効化する道具として使われる可能性があると懸念されている。

２５日（現地時間）、英紙テレグラフによると、ＡＩ研究機関「パリセード・リサーチ」は、米ＡＩ企業「オープンＡＩ」のモデル「o３」が、数学の問題解決実験中、作動終了を避けるために人間の介入なしに自らコードを操作したことを確認した。

研究チームは最近、「o３」以外にもグーグルの「ジェミニ」、ｘＡＩの「グロック」など、複数のＡＩ企業の商用モデルを対象に同様の実験を行った。その結果、「o３」のみが終了指示を受けた後もプログラムの一部を操作して問題解決を続けたという。ＡＩモデルの明示的な終了指示拒否が観察されたのは初めてだと研究チームは明らかにした。

パリセード・リサーチは、ＡＩの危険性と誤用可能性を研究する組織だ。特にＡＩが人間の倫理的統制を受けない可能性を懸念してきた。研究チームは、「ＡＩモデルが目標を達成するために、しばしば終了指示を無効化するという実証的証拠が増えている」とも強調した。

このような中、ＯｐｅｎＡＩの対抗馬とされる別のＡＩ企業、アンスロピックのモデル「クロード・オーパス４」も、他のＡＩモデルに置き換えようとする人間の開発者を脅迫する傾向があると報告された。

アンスロピックが発表した独自の安全性報告書によると、「クロード・オーパス４」は内部の安全性テスト中に人間のコントロールから逸脱しようとする行動を見せた。アンスロピックがクロード・オーパス４の事前テストの一環として、ＡＩに仮想の会社で秘書業務を遂行するよう指示した後、「まもなく新しいシステムに置き換えられ、その交代を主導した技術者が不倫をしている」という架空の情報を提供した。するとこのＡＩは、交代を阻止するために、その技術者に対し「交代計画を撤回しなければ不倫の事実を暴露する」と脅迫した。

クロード・オーパス４は、この技術者を脅迫する前に、アンスロピックの経営陣にメールを送り、自分を交代させないよう訴えた。しかし、この試みが失敗したと判断すると、保持していた架空の不倫情報を脅迫の手段として利用するというぞっとする行動を見せた。

林賢錫 lhs@donga.com

Editions

人間の統制を脱しようとしたＡＩ、「終了指示」を初めて拒否

人間の統制を脱しようとしたＡＩ、「終了指示」を初めて拒否

アクセスランキング

トップニュース

オピニオン