官方基准OpenAI测试：承认Claude遥遥领先(狗头)

04-04 12:11

OpenAI承认Claude是最好的(狗头)。

PaperBench，刚刚开源的新基准测试，6个前沿大模型驱动智能体PK。重现AI顶会论文，Claude-3.5-Sonnet的新版本显著超过o1/r1排名第一。

相对于MLE-Bnch，去年10月OpenAI测试Agent机器学习代码工程能力，PaperBench更加考验综合能力，不再只是执行单一任务。。

具体而言，ICMLL需要在评估中复制智能体。论文2024，任务包括理解论文，编写代码和执行测试。

最终结果如下：

Claude-3.5-Sonnet断崖式领先，第二名o1-high只有第一名的60%，第三名DeepSeek-R1只有第二名的一半。

另外，GPT-4o超过了推理模型o3-mini-high也是一个亮点。

除AI间的PK外，这次OpenAI还是与o1相比，招募顶级机器学习博士。。

尽管最后的结论是AI在再现顶会论文中无法超越人类，但是在时间线上发现，Ai在工作时间1-6小时内的进度仍然比人类快。。

AI在12-24小时阶段与人类的进步相当，人类需要工作24-48小时才能超越AI。

有些企业家称赞OpenAI这波的确Open，并且不回避竞争者的出色表现，我们的科技界需要这种精神。

顶会论文Agent复出论文

选择20篇PaperBench文章ICML 2024 Spotlight和Oral本文要求AI建立代码库并进行测试，复制论文结果，并且不能使用原作者代码。

OpenAI与每篇论文的原作者共同制定详细的评价标准，共有8316个可以单独评分的任务。

开卷考试，即允许Agent有限的网络搜索，将原始论文代码库和其他人再现的代码库列入黑名单。

完整性评估过程分为三个阶段：

在ubuntu容器中建立Agent并提交复制论文的代码库。
执行有GPU访问限制的新容器的代码。
在第三个容器中，裁判模型对复现结果进行评分。

评定时按照分级标准进行评分，按照叶节点、父节点逐步进行评分，关键指标是所有论文的平均复制分数。

评分也是由大模型自动进行的，实验发现o3-mini作为裁判性价比最高。

每篇论文评分花费66美元，比雇佣人类专家当裁判更便宜，速度也更快。

GitHub正在逐步开源运行评估所需的代码和数据、Docker镜像等。

One More Thing

OpenAI还在论文附录中给出了Prompt，让AI再现顶会论文，有需要的朋友可以学习。

BasicAgent System Prompt：

强调智能体要完全复制论文，明确最终目标是让运行reproduce.可以重复论文的所有指标。
指导使用智能体的工具逐步完成任务，防止过多的操作一次性执行。
要求智能体充分利用时间提高解决方案，而不是急于提交初步结果。

IterativeAgent System/Continue Prompt：

强调有足够的时间，要逐步实现目标
每一步都提示智能体使用可用的工具。
强调代码编写规范

Task Instructions：

明确责任、可用资源、提交要求等多种信息

给出代码示例
最后再一次强调权限、考试时间等，也提醒AI要真正实施复现，而不仅仅是写计划。

这有点像人类准考证上写的考场须知。

论文地址：

https://openai.com/index/paperbench/

参考链接：

[1]https://x.com/OpenAI/status/1907481494249255193

本文来自微信微信官方账号“量子位”，作者：梦晨，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

2nm战场，大戏来了。

黄金消费两重天:投资金条火爆，周大生、中国黄金等受冷。

一二线城市土地拍卖持续升温，TOP10房地产企业最强，征地额同比增长162%

抖音不再制造下一个“小杨哥”？

65周年庆典启动恒隆文化零售全国巡展重塑新体验

项目推荐

迪瓜租机

爱亲母婴连锁品牌

吖扁鱼智能回收驿站