低调突围的豆包2.0:悄然登顶国内模型榜首

1天前

本文来自微信公众号: AGENT橘 ,作者:AGENT橘



Seedance 2.0的光芒过于夺目,吸引了所有关注,使得Doubao-Seed-2.0显得有些默默无闻。不过春节期间,我在豆包的专家模式中使用它时,收获了不少意外惊喜。



从字节官方发布的79页Model Card来看,Doubao-Seed-2.0十分注重真实世界任务的解决,还严谨地指出自身在编码和世界知识方面不及竞品Claude与Gemini。





以下内容译自官方Model Card:



需要注意的是,Doubao-Seed-2.0系列与国际前沿大语言模型(LLMs)仍存在差距...



Doubao-Seed-2.0系列在编码方面与Claude相比有相当大的差距(considerable gaps),以SWE-Evo和NL2Repo为例。



Doubao-Seed-2.0系列在与用户体验密切相关的长尾知识方面与Gemini相比存在相对明显的差距(relatively obvious gaps),以SuperGPQA和SimpleQA-Verified为例。



然而春节过后,情况出现了一些小反转,年前几款国产新模型的竞技场排名也都公布了。(竞技场LMAreana是全球模型接受用户公开盲测的平台,反映实际用户体验)



排名最高的竟然是Doubao-Seed-2.0。



Doubao-Seed-2.0不仅拿下国内综合第一,还在全球总榜冲进了前10。其他几款新模型,GLM5、文心5、Qwen3.5、Kimi K2.5,紧随其后排在16、17、18、19名。



特别值得一提的是,Doubao-Seed-2.0的视觉能力仅次于Gemini的三个版本,排名全球第4。考虑到它的输入成本比Gemini低约5倍,这个模型在多模态理解方面是个降本增效的利器。





原生多模态



这份竞技场排名很有意思,Doubao-Seed-2.0和Gemini3一样是原生多模态模型,意味着它对图片、视频、音频的理解应该十分出色。我在豆包的专家模式里测试了它的图片识别能力。



这个模型的图片推理能力强得有些惊人…



我给模型一张自己拍摄的小众景点照片,网上从未发布过,让它猜测地点。



我询问了Gemini的思考模式,它猜错了,提示错误后第二次还是错了,而且只会按图上的文字搜索来猜测。



我又尝试了豆包新出的专家模式,它第一次也错了,我提示错误后,它突然进入“狂暴模式”,思考了约几分钟,思维链条长达上千字,分析城市地理、景点街道方向、建筑特征,还调用搜图工具对比…最终成功答对。



我问它如何猜测的,它列出三个严丝合缝的步骤,这是它的复盘过程,有理有据,没有用大众点评等数据库搜店铺名作弊,而是通过原生视觉推理:



复盘:



第一步:锁定100%正确的大前提——地域绝对是云南大理



核心铁证是图中摩托车车牌,清晰显示“云L”开头。



第二步:推翻最初“大理古城”的结论



1. 地形不符:大理古城建在平坝上,是棋盘式方正街巷,几乎没有长距离、大坡度的连续上坡路。



2. 业态和建筑不符:大理古城主街是纯旅游商业化的规整商铺,几乎没有原生居民楼。



3. 地标位置不符:大理古城的城门都建在平地上,不会出现在坡道顶端高处。



第三步:排除大理古城后,在大理范围内寻找同时满足这些条件的地方:有千年历史的古街巷+带老城门楼、整条主街依山而建的长上坡青石板路、至今保留原生烟火气而非纯商业化景区。



答案只有一个:龙尾关。



除了照片理解,我还测试了图表理解,将一张过去十年的黄金走势图让模型还原成Excel表格。





根据表格作图简单,但根据图表倒推表格,视觉能力弱是做不到的。



它成功画出了十年黄金走势表。



但它很快发现一个问题:



该图表的价格数值与现实中伦敦金/COMEX黄金(美元/盎司)的历史真实价格存在显著差异,为图表本身设定,本次制表未做数值修正。



若需要2016-2025年国际黄金真实历史价格的Excel表,可立刻补充提供。



这个表格是根据视觉整理的,数值存在模糊性,它猜测我的意图是要准确表格。



于是它调用网络搜索,从权威数据中获取了准确表格。



为方便观看,我让它直接绘制成HTML图表展现。





这个表格的绘制有两点超出预期:一是互动设计,鼠标划过可显示当年精准数据;二是蜡烛图绘制,清晰展现当年波动范围,正是我需要的。



可见模型在Coding+视觉方面的能力非常强悍。



测试完图像理解后,我又测试了视频理解,不过这个题难度可能超纲了…



这位歌手的演唱太过炸裂,模型识别不出她唱的歌曲。(如果你知道,欢迎留言告诉我...)



驱动龙虾Agent



测试完基础模型能力后,我特别好奇Doubao-Seed-2.0在OpenClaw🦞这样的Agent中的表现。



我在火山开了龙虾服务器+Coding Plan,总共花了20块钱,就让🦞在飞书里运行起来了。



我先让它安装了常用的ListenHub Skill,用于给文稿配音,一次就成功了。





我又让它安装了BrowserWing,这样它就能操作浏览器,替我上网冲浪了(这个插件非常好,推荐大家使用https://github.com/browserwing/browserwing)





这样我的🦞就可以浏览任何网页,制作日报或播客。



看来用Doubao-Seed-2.0驱动Agent是完全可行的。



体感总结



一番体验下来,我对Doubao-Seed-2.0的印象可用四个字概括:低调务实。



它没有像Seedance 2.0那样掀起巨浪,却悄悄在竞技场冲到全球前十。



A厂前几天还提出“蒸馏攻击”的说法,称中国模型只能靠蒸馏。豆包作为不能蒸馏的模型冲到全球综合前10、视觉能力第4,无疑是对这种说法的有力反驳。



当然它也不完美:视频理解遇到复杂场景会翻车,世界知识的长尾覆盖确实不如Gemini,专业编码方面距离Claude也有很大进步空间,这些字节在Model Card中已坦诚指出。



但对于大部分真实工作场景,如图表查看、文档分析、代码编写、Agent驱动等,Doubao-Seed-2.0已经足够好用。



而且火山方舟9.9元的Coding plan,不仅支持豆包,还支持Kimi和GLM等优秀开源模型,非常实惠。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com