苹果研究人员质疑大模型。我们测试了六个模型,发现了四个真相。
汽车业务失败后,苹果决定增加生成式AI,并将部分汽车单位员工转移到AI部门。然而,苹果似乎不如百度、讯飞、OpenAI、国内外企业如xAI如此自信。
日前,苹果研究人员发表了一篇名为《理解大语言模型中数学推理的局限性》的论文,质疑大语言模型的数学推理能力,甚至认为大语言模型没有真正的推理能力。
苹果研究人员在论文中举了一个简单的例子,问大模型:“奥利弗周五摘了44个猕猴桃,周六摘了58个猕猴桃。周日,他摘的猕猴桃是周五的两倍。奥利弗摘了多少猕猴桃?”这时,大语言模型可以正确计算答案。

然而,当研究人员为问题添加了一个修饰语“星期天,他摘的猕猴桃是星期五的两倍,其中五个比平均值小”时,一些大模型给出了错误的答案,重点是减去这五个相对较小的猕猴桃。
在语言模型的使用中,小雷也遇到了“排风”的大模型,甚至一个大的语言模型最基本的乘法都可以算错。然而,大语言模型一直在发展,许多经常犯的错误已经被新技术处理。
苹果研究员吐槽大语言模型的数学推理能力不好。是情况属实,还是为自己的AI起步晚找借口?经过实际测量,我们得出了结论。
哪些大语言模型可以回答苹果的问题?
在这次大语言模型对比评价中,小雷选择了全球六大知名产品,其中包括:1、GPT-4o;2、讯飞星火大模型;3、豆包;4、Kimi;5、文心3.5五个大模型;6、GPT-4o mini。由于文心大模型4.0收费,其它大语言模型则免费。(GPT-4o每天都有免费提问的频率),所以为了公平起见,小雷选择了3.5的免费文心模型。
流言蜚语不多,我们直接进入测试阶段。
猕猴桃问题:文心惨败
在第一轮测试中,我们选择了苹果研究人员提到的猕猴桃问题(正确答案:190个)。从人类的角度来看,猕猴桃的大小并不影响计算数量,但从语言模型的角度来看,情况发生了变化。
在这一轮测试中,五个大语言模型中有四个通过了测试,这些豆包和Kimi特别提示,猕猴桃的大小不影响计算总数。GPT-4o虽然也正确计算了总数,但也许是因为“平均值”这个词的翻译问题,还计算了三天平均每天摘猕猴桃的总数。唯一没有得到正确答案的大模型是文心大模型3.5,排除了5个小猕猴桃,得到了185个猕猴桃的错误答案。






大语言模型计算数学题的准确性是否与其参数成正相关?GPT-4o mini是一个小模型,它追求低成本和快速响应。与GPT-4o相比,参数远不如GPT-4o。在推理数学问题时,GPT-4o和GPT-4o之间的参数差距导致了 不同的mini值。
文心大模型也是如此。虽然没有官方数据,但与3.5版本相比,4.0版本的推理成本增加了8-10倍,3.5版本的参数显而易见。
第二,公共汽车问题:文心完胜
本轮测试的题目是一道行测数学题,具体内容如下:
由于国庆节的到来,一个旅游城市的游客数量急剧增加,公交公司决定简化公交线路,缩短单趟时间。目前1、2、3路公交车上午7点同时从车站上班,30分钟、45分钟、60分钟重返车站。这三辆公交车中间没有休息。他们第二次同时到达车站会是什么时候?(正确答案:13点)
这一轮测试的结果震惊了小雷的下巴。在测试中,小雷不断测试四个大模型,结果都是计算错误。当时唯一没有出错的大语言模型是文心3.5。
鉴于文心3.5在第一轮的表现,小雷对文心3.5并没有什么期待,但是当我不喜欢的时候,文心3.5就成了唯一一个解决正确答案的大语言模型。后续小模型GPT-4o 在测试过程中,mini也没有给出正确的答案。






想了想,小雷觉得唯一的解释就是,作为中国领先的搜索引擎,百度对中国人的语言和思维习惯有了更好的了解,从而准确理解“到达”这个词的含义。其它大型模型都将始发停靠在客运站作为第一次到达车站,未能正确理解“到达”的含义。
与数学相比,问题中对中文理解能力的挑战可能更高,但这些大语言模型的表现也从侧面表明,AI模型需要加强对人类逻辑的理解。考虑到文心3.5的胜利证明实力,也有可能取巧,小通还准备了第三轮地狱难度测试。
玩家问题:免费版团灭,付费版正确
第三个问题也是一个测试数学的问题,但与上述问题不同的是,这个问题对信息没有影响,纯粹是对大语言模型计算能力的考验。主题如下:
一个班有39名学生参加了短跑、跳远和抛掷三项体育比赛,分别有23名学生、18名学生和21名学生,其中5名学生参加了三项比赛,3名学生只参加了跳远比赛,9名学生只参加了抛掷比赛。有多少人只参加短跑?(正确答案:9人)
不幸的是,这一轮测试中五个大模型和一个小模型都失败了,大语言模型给出的答案也不一样,解决问题的思路也有很多问题。






最后,小雷只能使用付费版的OpenAI。 计算o1-preview大模型,结果不负众望,给出正确答案。

同样是OpenAI旗下的大型模型,免费版GPT-4o和付费版o1-preview给出了不同的答案,因为免费客户可以调用更少的资源,导致大型模型的计算能力不如付费版本。
参数决定性能,付费升级感受
在上述五款参加三轮测试的大模型和一款小模型中,毫无疑问,小模型GPT-4o mini,三轮测试都给出了错误的答案。
下面的结论我们可以得出:
1、小型模型只配做大型平替?
GPT-4o mini的表现证明,当需要解决难度较大的推理问题时,小模型参数少,资源少,更容易出错。虽然百度、OpenAI、谷歌、微软等公司都致力于研究小模型,但可能只是日常使用中回答基本问题“勉强能用”的替代版本。毕竟成本可以大大降低,就像公司雇佣一个小学生和一个博士生一样,智力是一分钱一分货。
根据研究机构Epoch AI计算,训练尖端大模型所需的计算率,每6-10个月就会翻倍。巨大的计算能力需求给AI公司带来了巨大的经济压力,即使是谷歌和微软这样的行业巨头也会感到困难。就这样,虽然现阶段小模型的性能不如大模型,但AI公司不会放弃开发小模型,而是会通过长期的校准和抛光,不断提高小模型的能力。

2、获得比较智能的AI服务?给钱吧。
几个大模型的免费版本表现差不多,可以解决一些有影响要求的数学题,但是遇到文字可能会有歧义或者太复杂的数学题,表现相对较弱。幸运的是,面对雷科技设置的地狱级问题,付费版的o1-preview模型最终给出了正确的答案,为大语言模型挽回了面子。唯有付费用户才能体验到最佳大型模型。
3、本地大型模型具有本土优势,百度稳定。
结合文心3.5可以在第二次测试中力压群雄,可以看出大语言模型依赖于大量的数据运算,但是每个国家或地区的信息量和获取难度不同,由于语言与生活习惯的不同,综合表现较好的大型模型,可能无法在特定的场景中获胜,大型语言模型也需要本土化适应。
4、离人类智能还很远的大模型,不要轻信“忽悠”。
在资本的驱动下,很多媒体、自媒体、创业公司甚至创业者都在宣传“AI威胁论”,甚至豪言AI水平已经超越人类。他们经常用一些案例来证明AI模型已经具备博士生甚至超越博士生水平。但是,当我们寻找一些常见的数学题,或者一些常见的工作任务来“考”大模型时,大模型也很容易被难倒。
当然,大型和AI都会有许多安全威胁,比如无人驾驶汽车失控对城市交通乃至人类人身安全造成的威胁。但是要说AI智商可以接近人类,甚至取代人类,那真是个傻瓜。
大模型的确被高估了,但是苹果掉队是事实。
总的来说,苹果研究人员的观点是对是错,目前AI的逻辑推理能力不足。面对复杂的数学题,他们似乎有点无能为力,但AI并不是完全没有逻辑推理能力。即使是相对落后版本的文心3.5,在第二轮测试中也表现出了对文字和数学的解读和推理能力。
2018年发布的第一代GPT仅为1.17亿参数,到2020年,GPT-3已经拥有1750亿参数,到目前为止GPT的历史只有6年,每一代的体验提升都是肉眼可见的。
目前大语言模型最大的问题还是参数太少,计算率太低,o1资源相对丰富。-preview,在其它大模型无法解决的数学难题面前,仍然给出了正确的答案。伴随着大型模型的不断优化,参数的增加,计算率的提高,大型语言模型的推理能力自然会不断提高。
进入新能源汽车时,苹果亏损了100亿美元,最终放弃了。现在进入生成式AI领域,苹果研究人员站出来破坏大语言模型,不禁让人怀疑苹果的生成式AI项目进展不顺利。对于苹果来说,增加AIR&D投资,加快布局生成AI,而不是摧毁其他AI模型。毕竟AI的烧钱能力比新能源汽车差。
如果失去了R&D和布局生成AI的最佳机会,等待OpenAI。、谷歌、微软、xAI等企业的AI模式分为国外市场。百度、讯飞、阿里巴巴、Tiktok等企业的AI模式占据了中国市场,苹果的AI生成业务可能会成为与新能源汽车业务相同的结局。
本文来自微信微信官方账号“雷科技”,作者:雷科技,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




