无需训练微调,辅助系统助力GPT-5.2准确率创75%纪录
什么?决定AI上限的已不再是底座模型,而是外围的「推理编排」(Orchestration)。
在LLM完全不变的前提下,仅靠一套Agentic System,就能让AI的智力表现原地提升一截。
看了「AI推理和自我改进系统」初创公司Poetiq的最新评测后,有人得出了这样的结论。

部分截图
近日,Poetiq表示其使用ARC-AGI-2测试集,在自家系统(名为meta-system)上运行了GPT-5.2 X-High。该测试集常被用于衡量当前顶尖模型在复杂抽象推理任务上的表现。
结果显示,在相同的Poetiq测试平台上,GPT‑5.2 X‑High在完整的PUBLIC-EVAL数据集上的成绩达到75%,这比此前的最佳水平高出约15%,同时每个问题的成本低于8美元。
这里的PUBLIC-EVAL是ARC测试的一部分,前者包含基础推理任务和标准的NLP、数学推理测试,适合广泛的模型评测,数据集更公开、标准;后者则有更多复杂且具挑战性的推理问题,考察模型的抽象推理、常识推理、创新能力等,是针对高水平模型的推理极限测试。

下图展示了各个顶尖模型在PUBLIC-EVAL数据集上的成绩分布:

Poetiq特别强调,其未对GPT-5.2进行任何再训练或模型特定优化。
在短时间内,相较于Poetiq之前在PUBLIC-EVAL数据集上测试的其他模型,GPT-5.2在准确率和价格方面实现了显著改进。
Poetiq进一步设想:如果在PUBLIC-EVAL测试中表现良好的规律能延续到ARC Prize官方的SEMI-PRIVATE测试中,那么「GPT-5.2 X-High + Poetiq」会比以往任何系统配置都更强、更好。
ARC Prize总裁Greg Kamradt表示:「很高兴看到Poetiq发布GPT-5.2 X-High的结果。如果这个成绩能保持,他们的系统看起来能很好地处理模型交换。不过,在OpenAI API的基础设施问题解决前,结果还未完全验证。」
这里的模型交换指的是:系统通过切换不同模型应对不同任务需求,而无需对系统或模型进行大规模调整或重新训练。

OpenAI总裁Greg Brockman也转推称:GPT-5.2在ARC-AGI-2上超越人类基准成绩。

针对全新测试结果,评论区提出了更多问题,比如「每个任务平均需要多长时间」。
Poetiq回复:「我们目前没有专门收集这些统计数据,最简单的问题大概8到10分钟后就能完成,最难的问题必须在12小时前终止,以符合时间限制。所以,未来肯定还有改进空间。」

还有人指出:「大部分改进似乎来自测试框架和协调机制,而非任何模型特定调优。在无训练变更的情况下,ARC-AGI-2上提高约15%,这表明仅在搜索、路由和终止逻辑方面就还有很大提升空间。」
但问题是:为何在这个设置中,X-High每个任务的成本比High还要低?是因为它更早找到正确解决方案从而更快收敛,还是测试框架更积极地修剪了无效推理过程?
对于这个问题,Poetiq肯定了「X-High只是比High更快收敛到正确答案」这一观点。

6人团队打造Meta-system系统
Poetiq是一支由6位研究员和工程师组成的团队,多位核心成员来自Google DeepMind。
Ian Fischer(联合创始人&联席CEO):曾是Google DeepMind的资深研究员;
Shumeet Baluja(联合创始人&联席CEO):同样出身于Google/DeepMind的资深专家。

Poetiq能取得上述成绩,关键在于其构建的meta-system(元系统)。
Meta-system不依赖特定大模型,可与任何前沿模型配合使用(如Gemini 3、GPT-5.1、Grok等),而非训练或微调模型本身,这意味着它能随新模型发布快速适配并提升性能。
Poetiq meta-system构建了一种迭代式推理过程,与传统一次性生成答案的方法不同,它有两个主要机制:
迭代式问题求解循环:系统并非只向模型提出一次问题,而是利用大语言模型(LLM)生成一个潜在解决方案,随后接收反馈、分析反馈,并再次调用LLM对方案进行改进。这种多步骤、自我改进的过程,让系统能逐步构建并不断完善最终答案。
自我审计(Self-Auditing):系统能自主审计自身运行进度,自行判断何时已获得足够信息、当前解决方案是否令人满意,从而决定终止整个过程。这种自我监控机制对避免不必要的计算浪费、有效降低整体成本至关重要。
Poetiq还特别强调,他们所有meta-system的适配工作在新模型发布前就已完成,且系统从未直接接触过ARC-AGI任务集,但依然在多个不同模型上取得跨版本、跨模型族的性能提升,说明meta-system对推理策略具有良好的泛化能力。
正是这种灵活、强大且具备递归能力的架构,让Poetiq这样的小规模团队能在极短时间内取得一系列顶尖成果。
对于这个meta-system,有人认为:「太棒了。在模型之上构建智能,而非在模型内部构建,意味着能在几小时内适配新模型,非常高明。适配开源模型且成功迁移到新的封闭模型,这表明捕捉到的是推理过程本身的基本规律,而非模型特定的特性。」

参考链接:https://poetiq.ai/posts/arcagi_verified/
本文来自微信公众号“机器之心”,编辑:杜伟、陈陈,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com



