AI受到灵魂折磨,这个问题全部模型集体翻车,网友:我也不会啊!
复制AI的难度还在升级?没有,图像推理又出现了一个新的问题。
这个问题在Reddit上引起了热议:目前还没有AI能够真正解决复杂的推理问题。

实际上,问题的定义很简单——下图中需要添加多少小方体才能形成一个完整的大立方体?

针对这个难题,国内外支持图像输入的大型模型给出了不同的答案。
在这些答案中,o3给出了45个,Gemini 2.5Pro只给出了10个答案。


而且国内的大模型,比如DeepSeek、Qwen3的答案分别是14和9。


出现这些不同答案的原因是什么?请往下看。
为何会有不同的答案?
核心原因:大型模型对大正方体的规格有不同的理解。。
o3将最终形成的大方体规格理解为5x5x5,但它仍然对缺失的小方体数量给出了错误的答案。从人类的角度来看,形成5x5x5的大方体需要125个小方体,图中已经给出了46个,所以答案应该是79个。
而且AI的错误源于它对图片中小方体结构和数量的分析错误。

Gemini 2.5 Pro将大正方体的最终规格理解为4x4x4。

而且DeepSeek和Qwen都将最终的大方体规格设定为3x3x3。


对最终要构成的大方体规模有不同的理解,各大模型自然会给出不同的答案。
不过,结合多次尝试提醒,也有大模型可以逐步找到正确的方向。。
网民们为这些错误答案提供了一些解决方案:
比如用o3测试,前两次尝试的时候给出一些小提示。虽然这也得到了错误的答案,但是第三次,即使没有提醒,也得到了正确的结果。

网友认为是因为ChatGPT的长期记忆功能,所以记住了前两次尝试的提示(比如考虑最长运行中有多少立方体,致力于严格记忆而不是估计),考虑了失败的经验,并将其全部整合在一起。
所以,可以说o3会通过记忆来学习。而且这个难题也将成为未来的训练数据。
网民:人类也会困惑
有些人说,这根本不是一个推理问题,而是一个视觉理解问题。
作者认为的错误答案是由于问题表达不清而导致AI分析过程出现偏差。
即使面对这样的问题,人类也会有类似的困惑。比如试题的要求是基于原有的排列结构还是可以混淆结构重新排序?


另外,如果能够更清楚地向AI解释图片内容(告知其照片中小方体的排列结构):

所以o3得到的答案也是正确的:

无论是3x3x3、4x4x4或5x5x5,或NxNxN,人类自己无法统一答案的问题,对于AI来说是否太难了!
网友:

AI:或许我需要一种更加科学的训练方法!

参考链接:https://www.reddit.com/r/singularity/comments/1kc2po7//not_a_single_model_out_there_can_currently_solve/?rdt=36638
本文来自微信微信官方账号“量子位”,作者:关注前沿技术,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




