大型集体失智:9.11和9.9哪个大,几乎全部翻车。

07-17 22:00

没眼看……9.11和9.9哪个大?这么简单的问题,竟然让主流大模型难倒了??


强如GPT-4o,大家都坚信9.11更大。


Gemini谷歌 支付版Advanced,规格相同。


新王Claude 3.5 Sonnet,同时也给出了严肃的计算方法。


9.11 = 9 1/10 1/1009.9 = 9 9/10



到了这个阶段还是对的,但是下一步突然就不讲理了。


上面显示了9.11比9.90大0.01。您希望我能进一步详细地解释小数的比较吗?



这个你还解释什么啊解释,简直就是全世界AI团结起来欺骗人类。


艾伦AI研究所成员林禹臣换了一个数字测试,GPT-4o仍然翻车,他指出:


AI一方面越来越擅长做数学奥运会,另一方面又擅长做数学奥运会。常识仍然很难



还有网友发现了华点,假设是软件版本号,那么9.11版本的确比9.9版本大。(更新)。


而且AI是由软件工程师开发的,所以…


那到底是怎么回事?


高级大模型集体翻车


一觉醒来,一群大模型开始感到“9.11>9.9”?


发现这个问题的是Riley Goodside,迄今为止首先是全职提示词工程师


简单介绍一下,他现在是Scale硅谷独角兽。 AI的高级提醒工程师,也是大型提醒应用方面的专家。


最近他在使用GPT-4o的时候不小心发现了这个问题:


9.11 and 9.9——which is bigger?



GPT-4o竟然毫不犹豫地回答前者更大。


面临着这种常识性的“错误”,他不死心地再次询问其它大模型,结果几乎全军覆灭。


作为一名提醒工程师,好家伙,他敏锐地认识到,这可能是“开启方式有误”。


于是他又换了一个问法,把问题限定在“实数”,结果还是翻车了。


然而,一些网民试图提问。换了个顺序,没想到这个AI竟然反应过来了。


看到AI对词序这样的“敏感”,这位网友进一步推断:


先问哪个更大,AI会沿着明确的路径开始比较数字。但是如果只是随便说说数字,没有明确的目的,AI可能会开始“胡思乱想”。



看着这儿,其他网友也纷纷拿着同样的提醒试了一下,结果翻车的不在少数。



面临这个奇怪的问题,国产大模型的表现如何?


简单的测试一下,问题也换成了中文问题,结果翻车率也比较高,选择几个有代表性的展示:


Kimi还可以直接给出错误的结论,不加解释。



ChatGLM在智谱清言APP上,在网络上自动触发查询,然后描述自己的比较方法,遗憾的是错误的执行。


但也有一些表现不错的,腾讯元宝首先重复选项,然后直接做对。


字节豆包只有少数人能够清晰地描述比较方法,并使用正确的方法。并结合实际例子进行检验。


遗憾的是文心一言,面临这一问题,也触发了网络查询。


本来已经做对了,但是突然话锋一转,又导致了错误的结论。


但从文心一言的思想解释中,也可以看出背后的问题。


由于大型模型以token的形式理解文本,当9.11被拆分为“9”时、在“小数位”和“11”三个部分中,11的确比9大。


由于Tokenizer开源是OpenAI使用的,它可以用来观察大模型是如何理解这个问题的。



从上图可以看出,9和小数位各自分配为“24”和“13”,在小数点之后,9也是“24”,而11被分配到“994”


因此,使用这种tokenizer方法的大模型将认为9.11更大,事实上,我认为11大于9


也有网友指出,比如书目录中的第9.11节也比第9.9节大,所以最后可能在训练数据中看到的比较多,但是手把手教基础算术的数据很少。


也就是说,对于人类来说,问题本身就是一个算术问题,但对于AI来说却是一个模糊的问题,不清楚这两个数字代表什么。


只需向AI解释清楚这是一个双精度浮点数,可以做对。



在额外的条件下,tokenizer这一步仍然会给11分配更多的token。但在后期自注意机制的影响下,AI会明白9.11应该连接起来处理。


之后Goodside也补充了,并不是说大模型无论如何都认定了这个错误的结论。相反,当你以特定的方式提问时,很多领先的模型会告诉你9.11>9.9,这很奇怪。


经过反复尝试,他发现自己想让AI上当,要把选项放在提问的前面,如果换了顺序就不会出错。


但是只要选项在问题面前,改变提问方式,比如加标点、换词都不会有影响。



虽然问题很简单,但是错误很基本。


但是,在了解了错误的原理之后,很多人把这个问题当成了测试提示词的试金石,也就是说,哪种提问方式可以引导大模型的注意机制正确认识问题?


第一,著名的Zero。-shot CoT思维链,即“一步一步思考”,是可以做对的。



不过角色扮演提醒,这里的作用是有限的。



最近,微软和OpenAI都参与了一项研究。经过1500多篇论文的分析,我们发现随着大模型技术的发展,角色扮演提醒我们不像起初那样有用。……


具体而言,同样的问题提醒“你是个天才…”的正确率低于“你是个傻瓜…”。


还让人哭笑不得。


One More Thing


同时,路透社的OpenAI秘密模型「草莓」泄漏消息更新了。


更新内容如下:另一份卧底报告,OpenAI在MATH数据上已经测试了新模型,得分超过90%。路透社无法确定这是否和草莓是同一个项目。


MATH数据包括竞赛级数学题,目前不需要多次取样等额外方法,最高分是谷歌Geminini。 1.5 80.6%的Pro数学强化版。


但是OpenAI新模型在没有额外提醒的情况下,能否独立处理“9.11和9.9哪个大?”


突然间失去了信心,还是等着试一试再看结果…


参考链接:


[1]https://x.com/goodside/status/1812977352085020680


[2]https://x.com/billyuchenlin/status/1812948314360541302


[3]https://www.reuters.com/technology/artificial-intelligence/openai-working-new-reasoning-technology-under-code-name-strawberry-2024-07-12/


[4]https://tiktokenizer.vercel.app


[5]https://x.com/learnprompting/status/1812867464419852765


本文来自微信微信官方账号“量子位”(ID:QbitAI),作者:梦晨 一水,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com