聊天机器人胡言乱语？牛津研究人员利用语义熵识破 AI“幻觉”

06-25 17:40

IT 世家 6 月 24 近年来，人工智能蓬勃发展，聊天机器人等应用逐渐普及。人们可以从这些聊天机器人中获得简单的指令(例如 ChatGPT）获取信息。但是，这些聊天机器人仍然容易出现“幻觉”问题，即提供错误的答案，有时甚至是危险的信息。

图源 Pexels

“幻觉”的原因之一是训练数据不准确、泛化能力不足、数据收集过程中的副作用。然而，牛津大学的研究人员采取了不同的方法，并在最新出版的《自然》杂志上阐述了他们新开发的方法，用于检测大型语言模型 ( LLMs ) 的"编造" ( 即随意生成的不正确信息 ) 问题。

LLM 通过在训练数据中找到特定的模式来生成答案。但是这种方法并不总是有效的，就像人类可以从云的形状中看到动物一样，AI 机器人也可以找到不存在的方法。但是，人们知道云只是一个形状，天空中没有漂浮的巨大大象。LLM 这可能被视为真实的，然后“编造”出不存在的新技术和其他虚假信息。

牛津大学的研究人员运用语义熵的概念，通过概率来判断 LLM 是否存在“幻觉”？。语义熵是指同一句话有多种含义的情况，例如，" desert “可以指沙漠，也可以指抛弃某人。” LLM 当你使用这种词语时，你可能会对表达的意思感到困惑。研究人员旨在通过检测语义熵来判断 LLM 输出内容没有“幻觉”的可能。

使用语义熵的优点是可以快速检测，无需额外的监督或加强学习。 LLM “幻觉”问题。由于这种方法不依赖于特定任务的数据，所以即使是 LLM 面对从未遇到过的新任务，也可以应用。这将大大提高用户对于用户的应用。 LLM 信任，即使是 AI 第一次遇到问题或指令。

研究小组说：“我们的方法可以帮助用户理解什么时候必须？ LLM 保持谨慎的输出，并因不可靠而受到限制 LLM 应用程序开辟了一个新世界。

假如语义熵被证明是一种有效的“幻觉”检测方法，那么我们就可以使用这种工具对人工智能输出进行双重检查，使之成为更可靠的合作伙伴。不过 IT 家庭需要注意的是，即使配置了最先进的错误检测工具，就像人类并非无可挑剔一样，LLM 还是有可能出错的。所以，永远是对的 ChatGPT 等待聊天机器人提供的答案进行仔细检查仍是明智之举。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

看到北京婚外情“剧本杀”惨案，才明白为什么自古以来奸情出人命！

金山这所中学这样做，探索高中育人的新方式。→

中国第一个凉爽的城市，没有夏天。

携手出线！1-1瑞士德国瑞士在德国排名第二菲尔克鲁格补时绝平

100分钟杀人！1-0苏格兰匈牙利匈牙利3分第三苏格兰1分垫底出局

项目推荐

康小虎 · 健康小屋

蓝丝带

毛加健康