13.8%和13.11%哪个大？大型车型连续翻车

2024-07-19

下列文章来源于财联社AI。 daily ，作者黄心怡

财联社AI daily.

财联社及科创板日报旗下产品——未来已经到来，AI前沿，专属，深度，专业！

最近，在最新一期的《歌手》节目中，孙楠与外国歌手的细微成绩差异，引发了网友关于13.8%和13.11%谁大谁小的争论。

有网友居然给出了“13.11%大于13.8%”的错误答案，记者发现很多大模型和一些网友一样，搞不清这个小学四年级的知识点。。

对《科创板日报》记者进行了检测，Kimi、智谱清言、通义等大型应用纷纷翻车，而百度文心一言、字节豆包则保持了大型模型的尊严。

Kimi在记者提问后表示，：13.11大于13.8。经过一番引导，Kimi给出了正确的答案，包括问13.11减13.8的答案为负，以及如何回答它的意义。

记者多次询问Kimimi。 Kimi有时可以正确回答13.11和13.8的大小。Kimi和一些网友一样，把13.8误认为13.08，所以得到了13.11更多的结果。

记者问Kimi是否知道湖南卫视《歌手》的排名导致了13.11和13.8的更多事件。Kimi成功地回答了这个问题，并为他之前的错误答案道歉。

此后，记者还测试了其它小数位的大小，Kimi的准确率为50%。

Kimi在数学逻辑上是无稽之谈，那么其他大模型能准确回答吗？在记者的测试中，文心的言论和豆包给出了正确的答案。

其中，文心一言给出了具体的推理过程，也回答了最近的新闻事件。

豆包也经受住了考验。

由于觉得11比8大，智谱清言也犯了和网友一样的位数错误，推理出13.11比13.8大。而且通义也坚信13.11大于13.8。

智谱清言的答案

通义的回答

值得注意的是，ChatGPT也出现了无稽之谈。正确答案是在13.8弥补了13.80的零位数之后才得到的。

这一大模型说胡话的情况，在业界被称为大模型产生幻觉。此前，哈尔滨工业大学和华为研究小组发表的综述论文认为，数据库、培训过程和推理是模型幻觉的三大来源。在训练数据中，大型模型可能过于依赖某些方法，例如位置接近、共现统计数据和相关文档记数，从而产生幻觉。另外，大型模型也可能出现长尾知识缺乏回忆，难以应对复杂的推理。

有业内人士告诉《科技创新板日报》记者，目前大模型的幻觉率还是比较高的，这也是行业缺乏真正颠覆性应用的原因之一。行业正在共同解决这个核心问题，使得大模型在工作过程中更加可控。

标题：“13.8%和13.11%哪个大？大型模型相继翻车”

阅读原文

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

紧急提醒！不要乱喝这种“防暑良药”！

近来“虚拟绑架”频发，已有多人中招！

关于这类企业，河南最新发文→ | 洛阳·早安

霍林郭勒云游

热！39℃！江西高温持续输出...