Go to contents

AIの「時間的エラー」を検出する評価システム、国内で開発

AIの「時間的エラー」を検出する評価システム、国内で開発

Posted April. 15, 2026 10:20,   

Updated April. 15, 2026 10:20


最新の情報を問う質問に対し、過去のデータに基づいて回答する人工知能(AI)。このように一見正しいようで実際には時効が過ぎた回答を示すAIの慢性的な「時間的エラー」を検出する評価技術が、国内研究チームによって開発された。

14日、韓国科学技術院(KAIST)は、電気電子工学部のファン・ウィジョン教授の研究チームがマイクロソフト・リサーチと共同で、大規模言語モデル(LLM)の時間的エラーを自動的に検出する評価システムを開発したと明らかにした。

AIは「何が正しいか」は比較的正確に把握する一方、「現時点で正しいか」を見極める点では弱い。例えばチャットGPTに「先月就任した閣僚は誰か」と尋ねると1年前の人物を答えたり、「本日の対ドルウォン相場はいくらか」と問うと数カ月前の数値を示したりする。LLMの活用領域が医療や法律など専門分野に広がる中、回答の信頼性検証の重要性が高まっているが、従来のAI評価は正誤判定にとどまっていた。

これに対し研究チームは、情報が時間の経過とともにどのように変化するかを併せて記録する「時間データベース」の概念をAI評価に導入した。AIが答えを当てたかどうかだけでなく、回答の過程で提示された日付や期間まで正確かどうかを別途検証した。これにより、表面上は正解のように見えても時間的根拠が誤っている、いわゆる「時間的ハルシネーション(Temporal Hallucination)」現象を、従来方式に比べて平均21.7%高い精度で検出する成果を上げた。

KAISTのファン教授は「膨大な専門データを評価資源へと転換することで、今後、医療や法律など多様な分野でのAI性能検証の実質的な基盤になると期待している」と話した。


ハン・チェヨン記者 chaezip@donga.com