ＡＩの「時間的エラー」を検出する評価システム、国内で開発

最新の情報を問う質問に対し、過去のデータに基づいて回答する人工知能（ＡＩ）。このように一見正しいようで実際には時効が過ぎた回答を示すＡＩの慢性的な「時間的エラー」を検出する評価技術が、国内研究チームによって開発された。

１４日、韓国科学技術院（ＫＡＩＳＴ）は、電気電子工学部のファン・ウィジョン教授の研究チームがマイクロソフト・リサーチと共同で、大規模言語モデル（ＬＬＭ）の時間的エラーを自動的に検出する評価システムを開発したと明らかにした。

ＡＩは「何が正しいか」は比較的正確に把握する一方、「現時点で正しいか」を見極める点では弱い。例えばチャットＧＰＴに「先月就任した閣僚は誰か」と尋ねると１年前の人物を答えたり、「本日の対ドルウォン相場はいくらか」と問うと数カ月前の数値を示したりする。ＬＬＭの活用領域が医療や法律など専門分野に広がる中、回答の信頼性検証の重要性が高まっているが、従来のＡＩ評価は正誤判定にとどまっていた。

これに対し研究チームは、情報が時間の経過とともにどのように変化するかを併せて記録する「時間データベース」の概念をＡＩ評価に導入した。ＡＩが答えを当てたかどうかだけでなく、回答の過程で提示された日付や期間まで正確かどうかを別途検証した。これにより、表面上は正解のように見えても時間的根拠が誤っている、いわゆる「時間的ハルシネーション（Ｔｅｍｐｏｒａｌ　Ｈａｌｌｕｃｉｎａｔｉｏｎ）」現象を、従来方式に比べて平均２１．７％高い精度で検出する成果を上げた。

ＫＡＩＳＴのファン教授は「膨大な専門データを評価資源へと転換することで、今後、医療や法律など多様な分野でのＡＩ性能検証の実質的な基盤になると期待している」と話した。

ハン・チェヨン記者 chaezip@donga.com

Editions

ＡＩの「時間的エラー」を検出する評価システム、国内で開発

ＡＩの「時間的エラー」を検出する評価システム、国内で開発

アクセスランキング

トップニュース

オピニオン