人类专家成为人工智能答辩检验机器的现实

念着记录叹了口气。“又是人工智能。”随着大语言模型（LLM）人工智能的接近性提高，向人工智能提出简单的问题后，把得到的回答直接提交或利用到法律纷争的事例正在大幅增加。

普通人主要使用的ChatGPT、Claude、Gemini等人工智能服务都是基于大语言模型。大语言模型是指理解并翻译广泛的人类语言，并生成经过自然语言处理文本的体系。大语言模型给出的不是“正确的知识”，而是根据上下文生成的概率性结果。因此，越是需要逻辑因果关系的事情，人工智能的答复就越有可能错误。人工智能给出的答案不是正确答案，而是很多人一直相信或使用的话。

使用人工智能导致的歪曲就是按照这样的顺序发生的。首先，用户向人工智能提问。“这样那样……这不是不当解雇吗？”人工智能对这个问题回答说：“很有可能是不正当解雇。”它并不是对“这样那样”的部分进行了逻辑性的判断和分析。提问本身就不恰当，也不精巧。大语言模型基本上是以人的反馈为基础学习的。设计成让使用者做出肯定的回答，所以只是给予了肯定的回答。用户接着又问。“请告诉我不当解雇人的依据！”从这里开始，答复将变得一塌糊涂。人工智能会随意提出不存在的概念、虚假信息、改变结果的判例、不存在的事件，按照使用者的诱导提问继续制定答案，使“不当解雇”煞有介事。这是令用户非常满意的答案。甚至读起来还像模像样。

于是，使用者确信是不正当解雇，并提交不当解雇救济申请书。提交的申请书上充斥着“‘**最重要的**’是裁量性基本权利受到了侵害”(**是原封不动地复制并粘贴人工智能聊天机器人强调的内容时出现的标识)等句子。概念模棱两可，主张前后矛盾，没有确凿的证据。

最近的法律纠纷正呈现出这样的情况：既没有逻辑也缺乏证据，却被包装成“**并非简单的起诉**”的案件；本应“**一定要核实**”的材料，却未加核查；口口声声说“**只讲重点**”，结果所谓的重点却被长达20页的请愿书所淹没。数量增加了，但内容却空洞。人们还要逐一点击错误的链接、检索并不存在的案件编号、核实并不存在的论文和专家言论，在这些事情上浪费了大量时间。有限的时间没有用于专业判断，反而消耗在最基础的核验工作上。

被浪费在说服固执的当事人或应对特定民怨上的时间也大幅增加。不管怎么重新说明，他们都不听。因为与人工智能进行了数小时的“**不是单纯的问答**”，而是深入的对话，已经陷入偏向性思维。

甚至不用提到Krafton案例：因为向ChatGPT询问解雇方法后付诸实行，结果在高达2.5亿美元（约3700亿韩元）的解雇诉讼中败诉。我还遇到过这样的人：在一起仅需4周治疗的交通事故中，当问到“如果收到多少钱就想达成和解”时，当场向人工智能求教，结果回答是“5亿韩元”。这是自己稍微想一想也不会出来的金额。如果这样，就再也没有协商的余地了。

一名性暴力案件的被告人带来了一份由于二次加害过于严重、根本无法原样提交给法院的陈情书。以往看到的被告人，自己不可能有这么坏的想法，并将其表达得如此精细而具有攻击性，于是问道：“是人工智能写的吧?”他回答说：“我不太会写，所以借助了帮忙。”想到那份陈情书——把被告内心的委屈和对受害者的怨恨最大程度地展现出来——，在形成过程中究竟与人工智能进行了多少对话，就令人感到茫然。即便把这样的陈情书交到法院，也不会在量刑上起到“帮助”，这件事情相比说服一个情绪化但仍然自主表达委屈的被告，要难上十倍。因为他已经无法放弃那篇由人工智能写出、自己又非常满意的文章了。

生成式人工智能使用的普及，似乎已是不可避免的方向。但由此带来的社会费用和负担也不小。亟需开展相关教育，使人们理解语言模型的特性和先天局限性，学会通过准确、具体地提问以及进行验证来减少“幻觉”问题。当前正处在一个需要类似互联网和智能手机刚刚普及时那种全社会再社会化的阶段。同时，也有必要在制度层面进行思考：验证责任与代价应由谁承担，以及因使用错误的人工智能回答而上升的纠纷解决成本应由谁负担。如今这种由人类充当人工智能答案“验证机器”的状况，是不合理的。

Editions

人类专家成为人工智能答辩检验机器的现实

人类专家成为人工智能答辩检验机器的现实

热门新闻

要闻

论坛