大型集体失智：9.11和9.9哪个大，几乎全部翻车。

07-17 22:00

没眼看……9.11和9.9哪个大？这么简单的问题，竟然让主流大模型难倒了？？

强如GPT-4o，大家都坚信9.11更大。

Gemini谷歌支付版Advanced，规格相同。

新王Claude 3.5 Sonnet，同时也给出了严肃的计算方法。

9.11 = 9 1/10 1/1009.9 = 9 9/10

到了这个阶段还是对的，但是下一步突然就不讲理了。

上面显示了9.11比9.90大0.01。您希望我能进一步详细地解释小数的比较吗？

这个你还解释什么啊解释，简直就是全世界AI团结起来欺骗人类。

艾伦AI研究所成员林禹臣换了一个数字测试，GPT-4o仍然翻车，他指出：

AI一方面越来越擅长做数学奥运会，另一方面又擅长做数学奥运会。常识仍然很难。

还有网友发现了华点，假设是软件版本号，那么9.11版本的确比9.9版本大。（更新）。

而且AI是由软件工程师开发的，所以…

那到底是怎么回事？

高级大模型集体翻车

一觉醒来，一群大模型开始感到“9.11>9.9”？

发现这个问题的是Riley Goodside，迄今为止首先是全职提示词工程师。

简单介绍一下，他现在是Scale硅谷独角兽。 AI的高级提醒工程师，也是大型提醒应用方面的专家。

最近他在使用GPT-4o的时候不小心发现了这个问题：

9.11 and 9.9——which is bigger?

GPT-4o竟然毫不犹豫地回答前者更大。

面临着这种常识性的“错误”，他不死心地再次询问其它大模型，结果几乎全军覆灭。

作为一名提醒工程师，好家伙，他敏锐地认识到，这可能是“开启方式有误”。

于是他又换了一个问法，把问题限定在“实数”，结果还是翻车了。

然而，一些网民试图提问。换了个顺序，没想到这个AI竟然反应过来了。

看到AI对词序这样的“敏感”，这位网友进一步推断：

先问哪个更大，AI会沿着明确的路径开始比较数字。但是如果只是随便说说数字，没有明确的目的，AI可能会开始“胡思乱想”。

看着这儿，其他网友也纷纷拿着同样的提醒试了一下，结果翻车的不在少数。

面临这个奇怪的问题，国产大模型的表现如何？

简单的测试一下，问题也换成了中文问题，结果翻车率也比较高，选择几个有代表性的展示：

Kimi还可以直接给出错误的结论，不加解释。

ChatGLM在智谱清言APP上，在网络上自动触发查询，然后描述自己的比较方法，遗憾的是错误的执行。

但也有一些表现不错的，腾讯元宝首先重复选项，然后直接做对。

字节豆包只有少数人能够清晰地描述比较方法，并使用正确的方法。并结合实际例子进行检验。

遗憾的是文心一言，面临这一问题，也触发了网络查询。

本来已经做对了，但是突然话锋一转，又导致了错误的结论。

但从文心一言的思想解释中，也可以看出背后的问题。

由于大型模型以token的形式理解文本，当9.11被拆分为“9”时、在“小数位”和“11”三个部分中，11的确比9大。

由于Tokenizer开源是OpenAI使用的，它可以用来观察大模型是如何理解这个问题的。

从上图可以看出，9和小数位各自分配为“24”和“13”，在小数点之后，9也是“24”，而11被分配到“994”。

因此，使用这种tokenizer方法的大模型将认为9.11更大，事实上，我认为11大于9。

也有网友指出，比如书目录中的第9.11节也比第9.9节大，所以最后可能在训练数据中看到的比较多，但是手把手教基础算术的数据很少。

也就是说，对于人类来说，问题本身就是一个算术问题，但对于AI来说却是一个模糊的问题，不清楚这两个数字代表什么。

只需向AI解释清楚这是一个双精度浮点数，可以做对。

在额外的条件下，tokenizer这一步仍然会给11分配更多的token。但在后期自注意机制的影响下，AI会明白9.11应该连接起来处理。

之后Goodside也补充了，并不是说大模型无论如何都认定了这个错误的结论。相反，当你以特定的方式提问时，很多领先的模型会告诉你9.11>9.9，这很奇怪。

经过反复尝试，他发现自己想让AI上当，要把选项放在提问的前面，如果换了顺序就不会出错。

但是只要选项在问题面前，改变提问方式，比如加标点、换词都不会有影响。

虽然问题很简单，但是错误很基本。

但是，在了解了错误的原理之后，很多人把这个问题当成了测试提示词的试金石，也就是说，哪种提问方式可以引导大模型的注意机制正确认识问题？

第一，著名的Zero。-shot CoT思维链，即“一步一步思考”，是可以做对的。

不过角色扮演提醒，这里的作用是有限的。

最近，微软和OpenAI都参与了一项研究。经过1500多篇论文的分析，我们发现随着大模型技术的发展，角色扮演提醒我们不像起初那样有用。……

具体而言，同样的问题提醒“你是个天才…”的正确率低于“你是个傻瓜…”。

还让人哭笑不得。

One More Thing

同时，路透社的OpenAI秘密模型「草莓」泄漏消息更新了。

更新内容如下:另一份卧底报告，OpenAI在MATH数据上已经测试了新模型，得分超过90%。路透社无法确定这是否和草莓是同一个项目。

MATH数据包括竞赛级数学题，目前不需要多次取样等额外方法，最高分是谷歌Geminini。 1.5 80.6%的Pro数学强化版。

但是OpenAI新模型在没有额外提醒的情况下，能否独立处理“9.11和9.9哪个大？”

突然间失去了信心，还是等着试一试再看结果…

参考链接：

[1]https://x.com/goodside/status/1812977352085020680

[2]https://x.com/billyuchenlin/status/1812948314360541302

[3]https://www.reuters.com/technology/artificial-intelligence/openai-working-new-reasoning-technology-under-code-name-strawberry-2024-07-12/

[4]https://tiktokenizer.vercel.app

[5]https://x.com/learnprompting/status/1812867464419852765

本文来自微信微信官方账号“量子位”（ID:QbitAI），作者：梦晨一水，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

突然间，中国平安宣布要取消股份。

上半年发布了53个信托业绩，座位混乱。该公司首次获得净利润冠军。

签署世界上最大的储能项目！千亿市值巨头，股价大幅上涨

纯干货，最新业绩拐点名单抢先看

寻找ESG同路人，「36碳圆桌派」招募客人，专业观众

项目推荐

康小虎 · 健康小屋

蓝丝带

毛加健康