推理模型一年内就会碰到墙壁,性能不能再扩展几个量级。
一年之内,大型推理训练可能会碰到墙壁。
上述结论来自于Epoch AI。
这是一个非营利组织,专注于人工智能研究和基准测试。FrontierMath基准测试(评估AI模型的数学推理能力)来自其他家庭。
还有一条消息随之而来:
假如保持推理模型「每个3-5个月以10倍的速度增长」,因此,推理训练所需的算率可能会大大收敛。
就像DeepSeek-R1对OpenAII一样。 o1-preview。

看到这样的结果,有围观者都很着急:
因为在o3的基础上很难再scaling,为什麽我们不探索模块化架构或针对特定任务的特殊模型?比“研究过剩”更重要的是“效率”!

推理训练还包括scalable空间
OpenAIo1是推理模型的开山之作。
和o3、DeepSeek-R1等。,它们是从传统的大语言模型中发展起来的,在预训练阶段使用了大量的人类数据进行练习,然后在强化学习阶段(也就是所谓的第二阶段),根据做题的反馈来提高自己的推理能力。
虽然推理模型已成为许多AI用户的实用帮手,关于推理训练所需的计算能力的公开信息很少。,大概只有以下几点:
根据OpenAI的说法,训练o3所需的算率比o1提高了10倍——几乎所有的提高都花在了训练阶段。
OpenAI未公开o1、具体的o3细节,但是可以从DeepSeek-R1、微软Phi-4-reasoning、其它推理模型,如英伟达Llama-Nemotron。在推理训练阶段,他们需要算率耕地,但是可以根据它们来推导。
CEO和Anthropic的创始人 Dario Amodei曾经有一篇关于推理模型的公开文章。
接着就没有了…
依据现有信息和资料,Epoch AI对其进行了总结和分析。
首先,OpenAI公开了这样一张图表。,上面展示了o3和o1在AIME基准测试中的表现,以及两者在推理训练阶段可能需要的计算能力的对比。——

可以看出,最终版本o3投入的算率是o1的10倍。
Epoch AI分析道:“X轴很可能显示推理训练所需的算率,而非最终力量。。”
Epoch AI列出了这个猜测的证据。
首先,第一代o1消耗的算率比o3低四个量级,其在AIME上的分数约为25%。
若X轴表示总计算量,则“不太可能出现这种情况”。
其次,如果X轴表示需要的最终力,那么这张图的意义就不大了。
因为这意味着OpenAI训练了N个版本的o1,而且预训练阶段很不完整。

按Epoch计算 AI猜测,如果o3推理清算投入的算率是o1的10倍,这是什么意思?
因为许多推理模型背后的团队都学得很好,没有公开的训练方法和流程,所以只好从现有的公开资料中寻求答案。
比如DeepSeek-R11。
Epoch 以前AI估计过,DeepSeek-在R1推理训练中使用的算率大约是6e23 FLOP(成本约 100 一万美元),大概需要生成。 只有DeepSeek-V3预训练费用的20%是20万亿个tokens-。
虽然是一种估计,但R1在每个列表中的分数与o1非常接近,“因此,它可以用来为o1所需的计算率设置一个baseline”。
比如英伟达的Llama-Nemotron Ultra,DeepSeek-R1和o1在每一个标准上都有相同的成就。
这是对DeepSeek-R1生成的数据进行训练。
公开信息显示,Llama-Nemotron Ultra的推理阶段耗时1400000。 H100小时大约相当于1e23。 FLOP。它甚至低于原始基础模型预训练费用的1%。
例如Phi-4微软-reasoning。
这是对o3-mini产生的数据进行训练。
Phi-推理阶段4-reasoning规模较小,成本低于1e20。 FLOP,这可能是预训练所需的计算费用的0.01%。<0.01%。
值得注意的是,Llama-Nemotron和Phi-在RL阶段之前,4-reasoning进行了监管微调。
在今年1月DeepSeek-R1发布之后,我们再来看看Anthropic。CEODario Amodei这篇文章被认为是当前推理模型所需计算率规模的最后一条线索:
由于这是一个新的范式,我们目前仍处于规模扩张的早期阶段。:所有参与者在第二阶段投入的资金量都很少,从10万美元增加到100万美元的成本可以带来巨大的利润。如今,公司正在迅速加快步伐,将第二阶段的规模扩大到数亿甚至数十亿美元。有一点必须注意,那就是我们正处于一个独特的转折点。
当然,Amodei对于非Anthropic模型所需的计算能力的看法可能只是基于自己公司的内部数据。
但是能清楚地理解,截至今年1月,他认为推理模型的实践成本远低于“千万美元”,超过1e26 FLOP。
Epoch AI总结道——
以上的估计和线索指向一个事实,那就是目前最前沿的推理模式,比如o1,甚至o3,它们的推理训练规模还没有达到顶峰,可以继续scalable。
但是一年之内可能会撞墙。
也就是说,如果推理训练还没有达到顶峰,那么推理模型仍然有可能在短时间内快速实现能力拓展。
这个意思是,推理模型也很会玩,潜力无限。
就像OpenAI显示的下图,以及DeepSeek-R1论文中的图2一样——随着推理训练步骤的增加,模型解决问题的准确性大致呈线性增长。

这表明,至少在数学和编程任务中,随着推理训练的扩展,推理模型的性能得到了提高,就像预训练一样。 law也是如此。
文章到此为止,Epoch AI写了这样一段话:
假如在推理阶段的计算能力需求达到顶峰,那么它带来的增长率就会收敛,每年增长4倍左右。在o1推出后4个月内,它永远不会像o3那样,保持几个月内增长10倍的趋势。
所以,他得出了这样的结论。——
假如一个推理模型的练习阶段只比前沿推理模型低几个量级(例如低于三个量级),这一增长速度可能会在一、两年内缓解,甚至碰壁。

但是,要扩大推理模式并非如此简单。
只是数据不够这个项目,可能会导致它停滞不前。
每个人都不清楚,除了数学、编程等领域,推理训练能否泛化到其他规律性不强的行业?。
但是可以肯定的是,随着推理模型的练习越来越成熟,所有推理模型所需的成本估计都趋同。
虽然研究成本不影响计算能力和性能的关系,但如果相关研究保持“花钱如流水”的状态,推理模型可能达不到人们预期的最佳水平。
另一方面,即使计算能力的增长速度放缓,推理模型也会像R1一样不断进化。
也就是说,不仅数据或算法创新可以促进推理模型的进步,而且计算率的飙升也是推动推理模型进步的重要因素。
参考链接:https://epoch.ai/gradient-updates/how-far-can-reasoning-models-scale
本文来自微信微信官方账号“量子位”,作者:关注前沿技术,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




