豆包模型更新，字节继续卷性价比

2025-06-16

加速大厂AI，从拼参数到拼利用率。

在过去的两天里，字节又出手了，一口气释放了一大堆货物。

大型豆包1.6、豆包，视频生成模型 Seedance 1.0 pro、豆包语音播客模型，豆包实时语音模型...家庭桶式上新，看热闹。

如果只看上面提到的产品，可能会觉得大厂又来了一波常规升级，没什么特别的。现在AI圈更新节奏这么快，新模型、版本号、榜单排名都很多，真的不容易提到兴趣。

但是如果你往下看，你会发现字节的做法不一样。它没有依靠一两个参数或演示视频来抢风头，而是开始将模型能力做成一整套“可以直接运行”的应用。从文字、图像、视频到语音和操作系统，都串在一起，很多都是直接挂在豆包APP里。、在已经使用的产品中，火山方舟。

让我们从两个核心产品开始。

Seedance 1.0 Pro 实测表现：

稳定，成型，但仍然有界限

在这些产品中，如果只看热度，Seedance应该是最受关注的。

Artificialialialial一上线就登上了第三方榜单。在可灵2.0和谷歌之间，Analysis的文生视频和图生视频排名第一，超过了Veo。 3。我们可以讨论如何评估列表，但至少说明在行业标准下，Seedance的形成效果已经达到了主流模型的更好水平。

让我们看看这个模型的基本情况。

Seedance 1.0 Pro支持文字和图片输入，可以生成1080p视频10秒左右，支持2-3个镜头切换。其主要特点是强调镜头之间的连接和内容的稳定性。

这在之前的视频生成模型中确实是一个缺点。虽然很多模型会产生图像，但内容无法连接，主角突然消失或背景抖动是很常见的。

Seedance解决这个问题的方法是用文字更准确地解释每个镜头的内容。官方称之为「精确描述模型」。它先生成一个描述，然后根据这个描述训练视频。这样可以让模型更好的知道生成什么，更容易控制动作和细节。

Seedance可以产生多种视频风格，可以支持航拍、第一人称、动画、水墨等多种风格。事实上，每个模型都有相似的能力，但Seedance在这方面的完成率和一致性更高。

在生成速度方面，5秒1080p视频只需40秒左右，这一速度属于当前行业中上水平。

让我们看看我们实际测量的结果(每一层每个人都测试了多个case，篇幅限制只显示其中一个)：

拍摄手法

prompt：晚上，在加油站，一个男人戴着头盔骑着摩托车，开始了，离开了加油站。镜头拍摄了他的背影，穿过街道，路上掠过霓虹招牌和迎面而来的车辆。

这个阶段主要是检测Seedance的快速运动。保持镜头的能力，看看它是否有剪辑感，是否能hold住快节奏。

结果还不错。骑摩托车是典型的特写静态镜头，画面非常干净。启动的瞬间，光影发生了变化，镜头在车启动后向前推进。

Seedance 在拍摄手法上，我们可以理解基本的拍摄方法；节奏有控制，不会快速切割，也不会死板；镜头过渡不是很生硬，但对复杂轨迹和非线性镜头的理解不够稳定。

物理运动

prompt：雨水中，一名穿着风衣的男子飞过狭窄的街道，踩过水坑，雨水四溅，镜头从后面拍摄。

看动作环境干扰下的运动稳定性。结果相对稳定。飞行时，人物姿势正常，路面上确实有水反射。遇到水坑时，路面上有明显的波浪，镜头也给了一些向前晃动的动态。雨本身是做出来的，但是有一点地图感。换句话说，这是一种视觉效果，但没有明显的深度和漂浮轨迹。

但是在整个飞行过程中，人物并没有崩溃，衣服也不是贴在身上的那种塑料感，而是有轻微的飘动，这说明Seedance在动态建模上有很强的一致性控制能力。

人物表演

prompt：拳击手被击倒，挣扎着站起来，脸上满是汗水和固执。

Seedance 1.0 在情感方面，Pro并没有达到极致，但是与过去同类模型相比，Pro已经迈出了一大步。表情控制能力仍在进化，细节仍有局限性，如嘴角和眼角肌肉反应不够细致，面部变化也不总是连续的。但它确实能表现出“笑、担心、恐惧、紧张、坚定”的基本情绪，并不是固定的脸谱，而是可以随着前后文字的变化而表达的形式。

该模型发布后，Seedance已接入即梦(视频3.0 Pro）和豆包APP(底部的「照片动起来」），用户可以直接使用，也可以通过火山引擎API访问自己的业务。价格也比较低，每千个tokens只需要1分5，相当于每个5秒视频3.67元左右。在大量视频的需求下，这个成本是可控的。

不过，目前Seedance仍有一些限制。比如生成时间基本控制在10秒以内，镜头切换虽然支持2-3个，但是还没有看到更复杂的剧本。生成也不是很稳定。如果你想获得一个满意的视频，你就无法摆脱更多的命运。。

豆包1.6:

在多模态和使用方面迈出了一步

再次看看豆包1.6，这是本次发布时更倾向于通用模型更新。它主要更新了三个版本：主要版本：（doubao-seed-1.6）、深度思考版（doubao-seed-1.6-thinking）和极速版（doubao-seed-1.6-flash）。在多个权威评价中，豆包1.6的整体能力进入了第一梯队，尤其是与数学和推理相关的任务，得分明显提高。

具体而言，这一代模型增强了搜索和DeepResearch的能力。现在你可以试试火山发动机的AI体验中心。

用户可以直接要求它完成一些复杂的任务，模型可以拆分任务，搜索信息，提炼内容，最后生成报告。我们也可以在GPT-4和Claude中看到这个功能，但是豆包更适合国内用户，不需要熟悉复杂的操作步骤就可以打开使用。

豆包1.6最强的还是多模态的实用性。并非能够识别图片，能够观看视频，即使是多模态，也要把这些能力放在特定的场景中。

这个任务不仅可以通过语言生成，还可以整合图像、动作和提示词之间的信息，而豆包1.6在这个方向上确实做了一些实用的尝试。

另外一点值得注意的是操作技巧。AgentKit现在支持图形界面操作，可以打开网站，填写表格，浏览图片，下订单。

比如输入“打开豆瓣电影，找到今天在北京上映的电影，选择分数最高的电影，打开购票页面，截图停留。”它会依次打开网页，查找电影，筛选条件，最后确认下单。这个功能的完成度不低，可以做一些流程重复、逻辑清晰的轻任务。

在价格方面，豆包1.6也重新制定了策略。目前，所有任务都采用统一的定价模型。无论是文字生成还是图像分析，价格都是根据输入长度来划分的。最常见的0-32K区间是输入0.8元/百万tokens，导出8元/百万tokens。与豆包1.5相比，综合成本下降了63%左右。简单来说，价格更接近豆包1.0，但能力是它的几倍。

OpenAI 卷曲能力，字节卷什么？

这次更新的背后，其实是字节模型战略的持续。它强调的是组合能力和产品落地，而不是在单个模型参数上卷得特别猛。

在To C端，豆包已经在做APP化了，用“聊天” “工具”形式包装模型；但是在To中 B端，它依靠火山引擎提供从基本模型API到完整解决方案的全套AI服务。大型字节模型更新节奏不是盲目加速，而是与业务工具同步，比如最近更新的PromptPilot(提示词调优工具)、AgentKit(智能体开发平台)、Seedance，多模态操作台，甚至视频生成场景，都与模型不分离，而是集成设计。

它和OpenAI一样、与百度的路线相比，有所不同。OpenAI继续专注于非常实用的非常模型，例如，GPT-4o将语音、图像和文本形成统一的输入输出逻辑，目标是成为人类界面；虽然百度已经整合了很多产业链，但仍然保留了更多的平台概念，有些场景需要开发者重新组装。

字节不再是卷模模型的问题，而是卷模是否可以使用的问题。

在这一点上，它有点类似于微软Copilot的逻辑，但它有自己的中国玩法。微软的优势是Office生态绑定公司，字节的玩法是基于内容。双生态工具:一方面利用内容业务抖音等检测模型生成能力，另一方面利用火山引擎导出服务，将能力转化为服务，最终成为系统级商品。

而且从内部资源配置来看，字节策略也很明确:模型团队并不孤单，很多模块直接配合产品线的需求，比如语音播客、视频生成、搜索推荐，这样模型迭代从一开始就与实际场景挂钩，而不是自封。

大型工厂AI模型开始加速奔跑

谈到这里，其实有一个不可回避的问题：现在这些大厂在AI这件事上，到底卷到了什么程度？

由阿里、腾讯到字节，确实都在加速，而且每个家庭的方向都有些不同。

阿里专注于模型规模和通用能力。比如Qwen家族主要推广前后文和工具链，目标是拉齐OpenAI的能力，特别强调开源。

腾讯更注重业务融合，Agent布局做得早，关键在于To。 B场景，如政务、公司服务等。，并推出了元器等产品。

字节显然是以内容和多模式为核心阵地，基于内容生成和产品用途，从豆包模型、Seedance视频到语音播客。

他们走的路线不一样，但是节奏很快。你会发现这一年，模型迭代不再是半年一次，而是每两三个月一次。有的是版本更新，有的是新产品挂钩。但共同点是，每个人都不是在比较自己是否拥有它，而是在比自己是否负担得起、需要和快速使用它。

而且还有一个趋势也相当明确：在实验室里，AI已不再是跑分的东西。当你发布一个模型时，别人不再只关心你的推理速度和BLEU分数，而是问——可以挂在网页上吗？可以在手机上跑吗？价格怎么样？可以直接收到现在的系统吗？

从这个角度来看，虽然行业内没有太多技术噱头，但字节的这波模型更新确实很扎实。无论是Seedance的视频质量，还是豆包1.6的多模态能力，至少给了一些可以用的东西。对于开发者和中小企业来说，他们现在更关心的是这些东西是否可以使用，成本如何，安排是否复杂，而不是你的参数有多大。

所以说到底，大厂在AI这场竞争中，其实，比较的不是谁先创造最强的大模型，而是谁先把模型做成商品，谁先让用户真正使用，谁在不增加使用门槛的情况下支撑规模和成本。

现阶段大家还在跑步，但是已经可以看到几个不同方向的势能了。接下来我们要看的是，可能不是谁先发布GPT-5级模型，而是谁能真正把AI塞进每一个具体的应用场景，让它像水电网一样成为基础设施。谁做得越快越稳，在这场AI基础设施竞赛中就越有可能走得更远。

本文来自微信微信官方账号直接面对AI”（ID：faceaibang），作者：余测，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

今晚8点，维品会618最后一波高潮开始。

酸菜鱼的“中年危机”，太二最焦虑

牛X！提前续约！第四次！职业生涯2.1亿！绝对的NBA时代财产

父亲节，奥运冠军王懿律宣布升级为爸爸。

十四年前，倒贴三套房，嫁入河南农村港姐郭羡妮，现在怎么样了？

项目推荐

康小虎百岁计划・健康大使招募计划

毛加健康

康老板 · 氧疗堂