突如其来的内幕曝光？八月份的谷歌论文已经揭示了原理，大模型光有软件就没有环城河。

09-19 09:30

在发布不到一周的时间里，OpenAI最强模型o1的环城河已经消失。

有些人发现，谷歌DeepMind在8月份发表了一篇论文，揭示了原理和o1的工作方法。几乎一致。

本研究表明，增加测试时间（test-time）计算效率高于扩展模型参数。

根据论文提出的最佳计算方法（compute-optimal）在测试过程中计算扩展策略，在某些任务中，规模较小的基本模型可以超越一个14倍大模型。

网友表示：

那几乎就是o1的原理啊。

大家都知道，奥特曼喜欢领先于谷歌，所以这就是为什么o1先发preview版本？

有些人因此感叹：

的确，正如谷歌自己所说，没有人环城河，也没有人有环城河。

就在刚才，OpenAI将o1-mini的速度提高了7倍，每天可以使用50条；o1-preview提到每周50条。

计算量节省4倍

这篇论文的题目是谷歌DeepMind：在LLM测试中，计算比扩大模型参数规模更有效率。

研究小组延伸到人类的思维模式，因为人们在面对复杂的问题时会花更长的时间思考改进决策，那么LLM也可以这样做吗？

换言之，在面对复杂的任务之后，LLM能否更有效地利用测试时的额外计算来提高准确性。

以前有些研究已经证明，这个方向确实可行，但是效果比较有限。

所以这项研究想要探明，在使用较少的额外推理计算时，可以使模型性能提高多少？

使用PaLM2，他们制定了一组测试。-S*测试MATH数据。

主要分析了两种方法：

(1)自我修改迭代：在每一次尝试之后，让模型多次尝试回答一个问题，以获得更好的答案。（2）搜索：这样，模型就产生了多个备选答案，

可以看出，在使用自我修改方法时，随着测试时计算量的增加，标准最佳N策略（Best-of-N）不断扩大与计算最佳扩展策略的差距。

采用搜索方法，计算最佳拓展策略在初期表现出较为明显的优势。并且在一定的前提下，达到与最佳N策略相同的效果，只有1/4的计算量。

与PaLMM相比，FLOPs匹配评估与预训练相当。 2-S*(采用最佳计算策略)14倍大的预训练模型(不需要额外推理)。

结果表明，在使用自我修改方法时，当推理tokns远远小于预训练tokens时，计算策略在使用测试时的效果明显高于预训练。但是，当比例增加，或者在更困难的问题上，预训练的效果更好。

换言之，扩展方法是否有效，在两个前提下，根据不同的测试计算，关键在于提示的难度。

对不同的PRM搜索方法进行了进一步的比较，数据显示前向搜索(最右)需要更多的计算。

如果计算量较小，使用最佳计算策略最多可以节省4倍的资源。

与OpenAI的o1模型相比，这项研究几乎给出了相同的观点。

o1模型学会改进自己的思维过程，尝试不同的策略，认识到自己的错误。而且随着学习(训练时计算)的加强和思考时间的增加(测试时计算)，o1 性能不断提高。

然而，OpenAI更快地发布了这个模型，而谷歌在这里使用了PaLM2，Gemini2上还没有更新。

网民：环城河只剩下硬件了？

这一新发现不免让人想起去年谷歌内部文件中提出的观点：

没有环城河，也没有OpenAI。开源模型可以击败ChatGPT。

现在看来，各个家庭的研究速度都很快，没有人能保证自己永远领先。

环城河是唯一一条，或许是硬件。

(所以马斯克唰的建算率中心？)

有人说，英伟达现在可以直接控制谁能有更多的计算率。如果谷歌/微软开发出效果更好的定制芯片，情况会怎样？

值得注意的是，前不久OpenAI首个芯片曝光，将采用台积电最先进的A16埃米级工艺，专为Sora视频应用而设计。

很明显，大模型战场，只是卷模本身已经不够了。

参考链接：https://www.reddit.com/r/singularity/comments/1fhx8ny//deepmind_understands_strawberry_there_is_no_moat/

本文来自微信微信官方账号“量子位”，作者：明敏，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

银行财眼｜联动商务被罚款8470万元正是“卖身”抖音的关键时刻。

广州生产“香港美诚月饼”的厂家：保持经营，等待官方核查结果

2024年底，请警惕新旗舰机“128GB”

在广西这个地方，听说是全世界的外人“耶路撒冷”

告别低保留：功能保留矩阵操作指南

项目推荐

迪瓜租机

爱亲母婴连锁品牌

吖扁鱼智能回收驿站