人類專家成爲人工智能答辯檢驗機器的現實

念着記錄嘆了口氣。“又是人工智能。”隨着大語言模型（LLM）人工智能的接近性提高，向人工智能提出簡單的問題後，把得到的回答直接提交或利用到法律紛爭的事例正在大幅增加。

普通人主要使用的ChatGPT、Claude、Gemini等人工智能服務都是基於大語言模型。大語言模型是指理解並翻譯廣泛的人類語言，並生成經過自然語言處理文本的體系。大語言模型給出的不是“正確的知識”，而是根據上下文生成的概率性結果。因此，越是需要邏輯因果關係的事情，人工智能的答覆就越有可能錯誤。人工智能給出的答案不是正確答案，而是很多人一直相信或使用的話。

使用人工智能導致的歪曲就是按照這樣的順序發生的。首先，用戶向人工智能提問。“這樣那樣……這不是不當解僱嗎？”人工智能對這個問題回答說：“很有可能是不正當解僱。”它並不是對“這樣那樣”的部分進行了邏輯性的判斷和分析。提問本身就不恰當，也不精巧。大語言模型基本上是以人的反饋爲基礎學習的。設計成讓使用者做出肯定的回答，所以只是給予了肯定的回答。用戶接着又問。“請告訴我不當解僱人的依據！”從這裏開始，答覆將變得一塌糊塗。人工智能會隨意提出不存在的概念、虛假信息、改變結果的判例、不存在的事件，按照使用者的誘導提問繼續制定答案，使“不當解僱”煞有介事。這是令用戶非常滿意的答案。甚至讀起來還像模像樣。

於是，使用者確信是不正當解僱，並提交不當解僱救濟申請書。提交的申請書上充斥着“‘**最重要的**’是裁量性基本權利受到了侵害”(**是原封不動地複製並粘貼人工智能聊天機器人強調的內容時出現的標識)等句子。概念模棱兩可，主張前後矛盾，沒有確鑿的證據。

最近的法律糾紛正呈現出這樣的情況：既沒有邏輯也缺乏證據，卻被包裝成“**並非簡單的起訴**”的案件；本應“**一定要覈實**”的材料，卻未加覈查；口口聲聲說“**只講重點**”，結果所謂的重點卻被長達20頁的請願書所淹沒。數量增加了，但內容卻空洞。人們還要逐一點擊錯誤的鏈接、檢索並不存在的案件編號、覈實並不存在的論文和專家言論，在這些事情上浪費了大量時間。有限的時間沒有用於專業判斷，反而消耗在最基礎的核驗工作上。

被浪費在說服固執的當事人或應對特定民怨上的時間也大幅增加。不管怎麼重新說明，他們都不聽。因爲與人工智能進行了數小時的“**不是單純的問答**”，而是深入的對話，已經陷入偏向性思維。

甚至不用提到Krafton案例：因爲向ChatGPT詢問解僱方法後付諸實行，結果在高達2.5億美元（約3700億韓元）的解僱訴訟中敗訴。我還遇到過這樣的人：在一起僅需4周治療的交通事故中，當問到“如果收到多少錢就想達成和解”時，當場向人工智能求教，結果回答是“5億韓元”。這是自己稍微想一想也不會出來的金額。如果這樣，就再也沒有協商的餘地了。

一名性暴力案件的被告人帶來了一份由於二次加害過於嚴重、根本無法原樣提交給法院的陳情書。以往看到的被告人，自己不可能有這麼壞的想法，並將其表達得如此精細而具有攻擊性，於是問道：“是人工智能寫的吧?”他回答說：“我不太會寫，所以藉助了幫忙。”想到那份陳情書——把被告內心的委屈和對受害者的怨恨最大程度地展現出來——，在形成過程中究竟與人工智能進行了多少對話，就令人感到茫然。即便把這樣的陳情書交到法院，也不會在量刑上起到“幫助”，這件事情相比說服一個情緒化但仍然自主表達委屈的被告，要難上十倍。因爲他已經無法放棄那篇由人工智能寫出、自己又非常滿意的文章了。

生成式人工智能使用的普及，似乎已是不可避免的方向。但由此帶來的社會費用和負擔也不小。亟需開展相關教育，使人們理解語言模型的特性和先天侷限性，學會通過準確、具體地提問以及進行驗證來減少“幻覺”問題。當前正處在一個需要類似互聯網和智能手機剛剛普及時那種全社會再社會化的階段。同時，也有必要在制度層面進行思考：驗證責任與代價應由誰承擔，以及因使用錯誤的人工智能回答而上升的糾紛解決成本應由誰負擔。如今這種由人類充當人工智能答案“驗證機器”的狀況，是不合理的。

Editions

人類專家成爲人工智能答辯檢驗機器的現實

人類專家成爲人工智能答辯檢驗機器的現實

熱門新聞

要聞

論壇