Go to contents

人工智能“时间错误”检测评估系统在韩问世

人工智能“时间错误”检测评估系统在韩问世

Posted April. 15, 2026 09:31   

Updated April. 15, 2026 09:31


面对关于最新信息的提问,人工智能(AI)却基于过往数据作答。韩国研究团队近期开发出一项评估技术,可筛选出人工智能长期存在的“时间错误”现象——即答案看似正确,实则已丧失时效性。

韩国科学技术院(KAIST)14日宣布,电气及电子工程学部黄义钟教授研究团队与微软研究院共同开发出一套能够自动检测大型语言模型(LLM)时间错误的评估系统。

人工智能通常能辨别“何种答案正确”,但在区分“答案在当前时间点是否依然正确”方面存在弱点。例如,当向ChatGPT询问“上个月就任的长官是谁”时,它可能回答出一年前的人物;若问及“今日韩元对美元汇率”,则可能给出数月前的数据。随着大型语言模型应用范围扩展至医疗、法律等专业领域,答案可信度验证日益重要,但现有人工智能评估方式大多仅停留在判断答案正误层面。

为此,研究团队将记录信息随时间变化的“时间数据库”概念引入人工智能评估。评估不仅考察人工智能是否答对,还单独验证其作答过程中所依据的日期和时段是否准确。运用该方法,研究团队成功将外表看似正确但时间依据错误的所谓“时间幻觉(Temporal Hallucination)”现象检测准确率,较现有方式平均提升21.7%。

韩国科学技术院黄义钟教授表示:“将海量专业数据转化为评估资源,有望为今后医疗、法律等多个领域的人工智能性能验证提供坚实基础。”


韩彩妍记者 chaezip@donga.com