
面對關于最新信息的提問,人工智能(AI)卻基于過往數據作答。韓國研究團隊近期開發出壹項評估技術,可篩選出人工智能長期存在的“時間錯誤”現象——即答案看似正確,實則已喪失時效性。
韓國科學技術院(KAIST)14日宣布,電氣及電子工程學部黃義鍾教授研究團隊與微軟研究院共同開發出壹套能夠自動檢測大型語言模型(LLM)時間錯誤的評估系統。
人工智能通常能辨別“何種答案正確”,但在區分“答案在當前時間點是否依然正確”方面存在弱點。例如,當向ChatGPT詢問“上個月就任的長官是誰”時,它可能回答出壹年前的人物;若問及“今日韓元對美元彙率”,則可能給出數月前的數據。隨著大型語言模型應用範圍擴展至醫療、法律等專業領域,答案可信度驗證日益重要,但現有人工智能評估方式大多僅停留在判斷答案正誤層面。
爲此,研究團隊將記錄信息隨時間變化的“時間數據庫”概念引入人工智能評估。評估不僅考察人工智能是否答對,還單獨驗證其作答過程中所依據的日期和時段是否准確。運用該方法,研究團隊成功將外表看似正確但時間依據錯誤的所謂“時間幻覺(Temporal Hallucination)”現象檢測准確率,較現有方式平均提升21.7%。
韓國科學技術院黃義鍾教授表示:“將海量專業數據轉化爲評估資源,有望爲今後醫療、法律等多個領域的人工智能性能驗證提供堅實基礎。”
韓彩研記者 chaezip@donga.com






