低调突围的豆包2.0：悄然登顶国内模型榜首

03-03 06:30

本文来自微信公众号： AGENT橘，作者：AGENT橘

Seedance 2.0的光芒过于夺目，吸引了所有关注，使得Doubao-Seed-2.0显得有些默默无闻。不过春节期间，我在豆包的专家模式中使用它时，收获了不少意外惊喜。

从字节官方发布的79页Model Card来看，Doubao-Seed-2.0十分注重真实世界任务的解决，还严谨地指出自身在编码和世界知识方面不及竞品Claude与Gemini。

以下内容译自官方Model Card：

需要注意的是，Doubao-Seed-2.0系列与国际前沿大语言模型（LLMs）仍存在差距...

Doubao-Seed-2.0系列在编码方面与Claude相比有相当大的差距（considerable gaps），以SWE-Evo和NL2Repo为例。

Doubao-Seed-2.0系列在与用户体验密切相关的长尾知识方面与Gemini相比存在相对明显的差距（relatively obvious gaps），以SuperGPQA和SimpleQA-Verified为例。

然而春节过后，情况出现了一些小反转，年前几款国产新模型的竞技场排名也都公布了。（竞技场LMAreana是全球模型接受用户公开盲测的平台，反映实际用户体验）

排名最高的竟然是Doubao-Seed-2.0。

Doubao-Seed-2.0不仅拿下国内综合第一，还在全球总榜冲进了前10。其他几款新模型，GLM5、文心5、Qwen3.5、Kimi K2.5，紧随其后排在16、17、18、19名。

特别值得一提的是，Doubao-Seed-2.0的视觉能力仅次于Gemini的三个版本，排名全球第4。考虑到它的输入成本比Gemini低约5倍，这个模型在多模态理解方面是个降本增效的利器。

原生多模态

这份竞技场排名很有意思，Doubao-Seed-2.0和Gemini3一样是原生多模态模型，意味着它对图片、视频、音频的理解应该十分出色。我在豆包的专家模式里测试了它的图片识别能力。

这个模型的图片推理能力强得有些惊人…

我给模型一张自己拍摄的小众景点照片，网上从未发布过，让它猜测地点。

我询问了Gemini的思考模式，它猜错了，提示错误后第二次还是错了，而且只会按图上的文字搜索来猜测。

我又尝试了豆包新出的专家模式，它第一次也错了，我提示错误后，它突然进入“狂暴模式”，思考了约几分钟，思维链条长达上千字，分析城市地理、景点街道方向、建筑特征，还调用搜图工具对比…最终成功答对。

我问它如何猜测的，它列出三个严丝合缝的步骤，这是它的复盘过程，有理有据，没有用大众点评等数据库搜店铺名作弊，而是通过原生视觉推理：

复盘：

第一步：锁定100%正确的大前提——地域绝对是云南大理

核心铁证是图中摩托车车牌，清晰显示“云L”开头。

第二步：推翻最初“大理古城”的结论

1. 地形不符：大理古城建在平坝上，是棋盘式方正街巷，几乎没有长距离、大坡度的连续上坡路。

2. 业态和建筑不符：大理古城主街是纯旅游商业化的规整商铺，几乎没有原生居民楼。

3. 地标位置不符：大理古城的城门都建在平地上，不会出现在坡道顶端高处。

第三步：排除大理古城后，在大理范围内寻找同时满足这些条件的地方：有千年历史的古街巷+带老城门楼、整条主街依山而建的长上坡青石板路、至今保留原生烟火气而非纯商业化景区。

答案只有一个：龙尾关。

除了照片理解，我还测试了图表理解，将一张过去十年的黄金走势图让模型还原成Excel表格。

根据表格作图简单，但根据图表倒推表格，视觉能力弱是做不到的。

它成功画出了十年黄金走势表。

但它很快发现一个问题：

该图表的价格数值与现实中伦敦金/COMEX黄金（美元/盎司）的历史真实价格存在显著差异，为图表本身设定，本次制表未做数值修正。

若需要2016-2025年国际黄金真实历史价格的Excel表，可立刻补充提供。

这个表格是根据视觉整理的，数值存在模糊性，它猜测我的意图是要准确表格。

于是它调用网络搜索，从权威数据中获取了准确表格。

为方便观看，我让它直接绘制成HTML图表展现。

这个表格的绘制有两点超出预期：一是互动设计，鼠标划过可显示当年精准数据；二是蜡烛图绘制，清晰展现当年波动范围，正是我需要的。

可见模型在Coding+视觉方面的能力非常强悍。

测试完图像理解后，我又测试了视频理解，不过这个题难度可能超纲了…

这位歌手的演唱太过炸裂，模型识别不出她唱的歌曲。（如果你知道，欢迎留言告诉我...）

驱动龙虾Agent

测试完基础模型能力后，我特别好奇Doubao-Seed-2.0在OpenClaw🦞这样的Agent中的表现。

我在火山开了龙虾服务器+Coding Plan，总共花了20块钱，就让🦞在飞书里运行起来了。

我先让它安装了常用的ListenHub Skill，用于给文稿配音，一次就成功了。

我又让它安装了BrowserWing，这样它就能操作浏览器，替我上网冲浪了（这个插件非常好，推荐大家使用https://github.com/browserwing/browserwing）

这样我的🦞就可以浏览任何网页，制作日报或播客。

看来用Doubao-Seed-2.0驱动Agent是完全可行的。

体感总结

一番体验下来，我对Doubao-Seed-2.0的印象可用四个字概括：低调务实。

它没有像Seedance 2.0那样掀起巨浪，却悄悄在竞技场冲到全球前十。

A厂前几天还提出“蒸馏攻击”的说法，称中国模型只能靠蒸馏。豆包作为不能蒸馏的模型冲到全球综合前10、视觉能力第4，无疑是对这种说法的有力反驳。

当然它也不完美：视频理解遇到复杂场景会翻车，世界知识的长尾覆盖确实不如Gemini，专业编码方面距离Claude也有很大进步空间，这些字节在Model Card中已坦诚指出。

但对于大部分真实工作场景，如图表查看、文档分析、代码编写、Agent驱动等，Doubao-Seed-2.0已经足够好用。

而且火山方舟9.9元的Coding plan，不仅支持豆包，还支持Kimi和GLM等优秀开源模型，非常实惠。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

具身智能的认知偏差：用同一标尺衡量两条迥异赛道

产油国增产难抵供应风险国际油价大幅上扬机构上调风险溢价

官宣：2026年AWE展会，36氪打造沉浸式未来街区

午间市场观察：沪指率先翻红半日成交额突破2万亿

新项目亏损、高层震荡：茉酸奶的扩张野心正遭遇反噬？

项目推荐

迪瓜租机

康老板 · 氧疗堂