官方基准OpenAI测试:承认Claude遥遥领先(狗头)
OpenAI承认Claude是最好的(狗头)。
PaperBench,刚刚开源的新基准测试,6个前沿大模型驱动智能体PK。重现AI顶会论文,Claude-3.5-Sonnet的新版本显著超过o1/r1排名第一。
相对于MLE-Bnch,去年10月OpenAI测试Agent机器学习代码工程能力,PaperBench更加考验综合能力,不再只是执行单一任务。。
具体而言,ICMLL需要在评估中复制智能体。 论文2024,任务包括理解论文,编写代码和执行测试。
最终结果如下:
Claude-3.5-Sonnet断崖式领先,第二名o1-high只有第一名的60%,第三名DeepSeek-R1只有第二名的一半。
另外,GPT-4o超过了推理模型o3-mini-high也是一个亮点。
除AI间的PK外, 这次OpenAI还是与o1相比,招募顶级机器学习博士。。
尽管最后的结论是AI在再现顶会论文中无法超越人类,但是在时间线上发现,Ai在工作时间1-6小时内的进度仍然比人类快。。
AI在12-24小时阶段与人类的进步相当,人类需要工作24-48小时才能超越AI。
有些企业家称赞OpenAI这波的确Open,并且不回避竞争者的出色表现,我们的科技界需要这种精神。
顶会论文Agent复出论文
选择20篇PaperBench文章ICML 2024 Spotlight和Oral本文要求AI建立代码库并进行测试,复制论文结果,并且不能使用原作者代码。
OpenAI与每篇论文的原作者共同制定详细的评价标准,共有8316个可以单独评分的任务。
开卷考试,即允许Agent有限的网络搜索,将原始论文代码库和其他人再现的代码库列入黑名单。
完整性评估过程分为三个阶段:
- 在ubuntu容器中建立Agent并提交复制论文的代码库。
- 执行有GPU访问限制的新容器的代码。
- 在第三个容器中,裁判模型对复现结果进行评分。
评定时按照分级标准进行评分,按照叶节点、父节点逐步进行评分,关键指标是所有论文的平均复制分数。
评分也是由大模型自动进行的,实验发现o3-mini作为裁判性价比最高。
每篇论文评分花费66美元,比雇佣人类专家当裁判更便宜,速度也更快。
GitHub正在逐步开源运行评估所需的代码和数据、Docker镜像等。
One More Thing
OpenAI还在论文附录中给出了Prompt,让AI再现顶会论文,有需要的朋友可以学习。
BasicAgent System Prompt:
- 强调智能体要完全复制论文,明确最终目标是让运行reproduce.可以重复论文的所有指标。
- 指导使用智能体的工具逐步完成任务,防止过多的操作一次性执行。
- 要求智能体充分利用时间提高解决方案,而不是急于提交初步结果。
IterativeAgent System/Continue Prompt:
- 强调有足够的时间,要逐步实现目标
- 每一步都提示智能体使用可用的工具。
- 强调代码编写规范
Task Instructions:
- 明确责任、可用资源、提交要求等多种信息
- 给出代码示例
- 最后再一次强调权限、考试时间等,也提醒AI要真正实施复现,而不仅仅是写计划。
这有点像人类准考证上写的考场须知。
论文地址:
https://openai.com/index/paperbench/
参考链接:
[1]https://x.com/OpenAI/status/1907481494249255193
本文来自微信微信官方账号“量子位”,作者:梦晨,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com