聊天机器人胡言乱语?牛津研究人员利用语义熵识破 AI“幻觉”

06-25 17:40

IT 世家 6 月 24 近年来,人工智能蓬勃发展,聊天机器人等应用逐渐普及。人们可以从这些聊天机器人中获得简单的指令(例如 ChatGPT)获取信息。但是,这些聊天机器人仍然容易出现“幻觉”问题,即提供错误的答案,有时甚至是危险的信息。


图源 Pexels


“幻觉”的原因之一是训练数据不准确、泛化能力不足、数据收集过程中的副作用。然而,牛津大学的研究人员采取了不同的方法,并在最新出版的《自然》杂志上阐述了他们新开发的方法,用于检测大型语言模型 ( LLMs ) 的"编造" ( 即随意生成的不正确信息 ) 问题。


LLM 通过在训练数据中找到特定的模式来生成答案。但是这种方法并不总是有效的,就像人类可以从云的形状中看到动物一样,AI 机器人也可以找到不存在的方法。但是,人们知道云只是一个形状,天空中没有漂浮的巨大大象。LLM 这可能被视为真实的,然后“编造”出不存在的新技术和其他虚假信息。


牛津大学的研究人员运用语义熵的概念,通过概率来判断 LLM 是否存在“幻觉”?。语义熵是指同一句话有多种含义的情况,例如," desert “可以指沙漠,也可以指抛弃某人。” LLM 当你使用这种词语时,你可能会对表达的意思感到困惑。研究人员旨在通过检测语义熵来判断 LLM 输出内容没有“幻觉”的可能。


使用语义熵的优点是可以快速检测,无需额外的监督或加强学习。 LLM “幻觉”问题。由于这种方法不依赖于特定任务的数据,所以即使是 LLM 面对从未遇到过的新任务,也可以应用。这将大大提高用户对于用户的应用。 LLM 信任,即使是 AI 第一次遇到问题或指令。


研究小组说:“我们的方法可以帮助用户理解什么时候必须? LLM 保持谨慎的输出,并因不可靠而受到限制 LLM 应用程序开辟了一个新世界。


假如语义熵被证明是一种有效的“幻觉”检测方法,那么我们就可以使用这种工具对人工智能输出进行双重检查,使之成为更可靠的合作伙伴。不过 IT 家庭需要注意的是,即使配置了最先进的错误检测工具,就像人类并非无可挑剔一样,LLM 还是有可能出错的。所以,永远是对的 ChatGPT 等待聊天机器人提供的答案进行仔细检查仍是明智之举。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com