官方基准OpenAI测试:承认Claude遥遥领先(狗头)

04-04 12:11

OpenAI承认Claude是最好的(狗头)。


PaperBench,刚刚开源的新基准测试,6个前沿大模型驱动智能体PK。重现AI顶会论文,Claude-3.5-Sonnet的新版本显著超过o1/r1排名第一。



相对于MLE-Bnch,去年10月OpenAI测试Agent机器学习代码工程能力,PaperBench更加考验综合能力,不再只是执行单一任务。


具体而言,ICMLL需要在评估中复制智能体。 论文2024,任务包括理解论文,编写代码和执行测试。



最终结果如下:


Claude-3.5-Sonnet断崖式领先,第二名o1-high只有第一名的60%,第三名DeepSeek-R1只有第二名的一半。


另外,GPT-4o超过了推理模型o3-mini-high也是一个亮点。



除AI间的PK外, 这次OpenAI还是与o1相比,招募顶级机器学习博士。


尽管最后的结论是AI在再现顶会论文中无法超越人类,但是在时间线上发现,Ai在工作时间1-6小时内的进度仍然比人类快。


AI在12-24小时阶段与人类的进步相当,人类需要工作24-48小时才能超越AI。



有些企业家称赞OpenAI这波的确Open,并且不回避竞争者的出色表现,我们的科技界需要这种精神。



顶会论文Agent复出论文


选择20篇PaperBench文章ICML 2024 Spotlight和Oral本文要求AI建立代码库并进行测试,复制论文结果,并且不能使用原作者代码。



OpenAI与每篇论文的原作者共同制定详细的评价标准,共有8316个可以单独评分的任务。


开卷考试,即允许Agent有限的网络搜索,将原始论文代码库和其他人再现的代码库列入黑名单。


完整性评估过程分为三个阶段:


  • 在ubuntu容器中建立Agent并提交复制论文的代码库。
  • 执行有GPU访问限制的新容器的代码。
  • 在第三个容器中,裁判模型对复现结果进行评分。


评定时按照分级标准进行评分,按照叶节点、父节点逐步进行评分,关键指标是所有论文的平均复制分数。



评分也是由大模型自动进行的,实验发现o3-mini作为裁判性价比最高。


每篇论文评分花费66美元,比雇佣人类专家当裁判更便宜,速度也更快。



GitHub正在逐步开源运行评估所需的代码和数据、Docker镜像等。



One More Thing


OpenAI还在论文附录中给出了Prompt,让AI再现顶会论文,有需要的朋友可以学习。


BasicAgent System Prompt:


  • 强调智能体要完全复制论文,明确最终目标是让运行reproduce.可以重复论文的所有指标。
  • 指导使用智能体的工具逐步完成任务,防止过多的操作一次性执行。
  • 要求智能体充分利用时间提高解决方案,而不是急于提交初步结果。


IterativeAgent System/Continue Prompt:


  • 强调有足够的时间,要逐步实现目标
  • 每一步都提示智能体使用可用的工具。
  • 强调代码编写规范


Task Instructions:


  • 明确责任、可用资源、提交要求等多种信息


  • 给出代码示例
  • 最后再一次强调权限、考试时间等,也提醒AI要真正实施复现,而不仅仅是写计划。


这有点像人类准考证上写的考场须知。


论文地址:

https://openai.com/index/paperbench/


参考链接:

[1]https://x.com/OpenAI/status/1907481494249255193


本文来自微信微信官方账号“量子位”,作者:梦晨,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com