豆包模型更新,字节继续卷性价比
在过去的两天里,字节又出手了,一口气释放了一大堆货物。
大型豆包1.6、豆包,视频生成模型 Seedance 1.0 pro、豆包语音播客模型,豆包实时语音模型...家庭桶式上新,看热闹。
如果只看上面提到的产品,可能会觉得大厂又来了一波常规升级,没什么特别的。现在AI圈更新节奏这么快,新模型、版本号、榜单排名都很多,真的不容易提到兴趣。
但是如果你往下看,你会发现字节的做法不一样。它没有依靠一两个参数或演示视频来抢风头,而是开始将模型能力做成一整套“可以直接运行”的应用。从文字、图像、视频到语音和操作系统,都串在一起,很多都是直接挂在豆包APP里。、在已经使用的产品中,火山方舟。
让我们从两个核心产品开始。
Seedance 1.0 Pro 实测表现:
稳定,成型,但仍然有界限
在这些产品中,如果只看热度,Seedance应该是最受关注的。
Artificialialialial一上线就登上了第三方榜单。 在可灵2.0和谷歌之间,Analysis的文生视频和图生视频排名第一,超过了Veo。 3。我们可以讨论如何评估列表,但至少说明在行业标准下,Seedance的形成效果已经达到了主流模型的更好水平。

让我们看看这个模型的基本情况。
Seedance 1.0 Pro支持文字和图片输入,可以生成1080p视频10秒左右,支持2-3个镜头切换。其主要特点是强调镜头之间的连接和内容的稳定性。

这在之前的视频生成模型中确实是一个缺点。虽然很多模型会产生图像,但内容无法连接,主角突然消失或背景抖动是很常见的。
Seedance解决这个问题的方法是用文字更准确地解释每个镜头的内容。官方称之为「精确描述模型」。它先生成一个描述,然后根据这个描述训练视频。这样可以让模型更好的知道生成什么,更容易控制动作和细节。
Seedance可以产生多种视频风格,可以支持航拍、第一人称、动画、水墨等多种风格。事实上,每个模型都有相似的能力,但Seedance在这方面的完成率和一致性更高。
在生成速度方面,5秒1080p视频只需40秒左右,这一速度属于当前行业中上水平。
让我们看看我们实际测量的结果(每一层每个人都测试了多个case,篇幅限制只显示其中一个):
拍摄手法
prompt:晚上,在加油站,一个男人戴着头盔骑着摩托车,开始了,离开了加油站。镜头拍摄了他的背影,穿过街道,路上掠过霓虹招牌和迎面而来的车辆。
这个阶段主要是检测Seedance的快速运动。 保持镜头的能力,看看它是否有剪辑感,是否能hold住快节奏。
结果还不错。骑摩托车是典型的特写静态镜头,画面非常干净。启动的瞬间,光影发生了变化,镜头在车启动后向前推进。
Seedance 在拍摄手法上,我们可以理解基本的拍摄方法;节奏有控制,不会快速切割,也不会死板;镜头过渡不是很生硬,但对复杂轨迹和非线性镜头的理解不够稳定。
物理运动
prompt:雨水中,一名穿着风衣的男子飞过狭窄的街道,踩过水坑,雨水四溅,镜头从后面拍摄。
看动作 环境干扰下的运动稳定性。结果相对稳定。飞行时,人物姿势正常,路面上确实有水反射。遇到水坑时,路面上有明显的波浪,镜头也给了一些向前晃动的动态。雨本身是做出来的,但是有一点地图感。换句话说,这是一种视觉效果,但没有明显的深度和漂浮轨迹。
但是在整个飞行过程中,人物并没有崩溃,衣服也不是贴在身上的那种塑料感,而是有轻微的飘动,这说明Seedance在动态建模上有很强的一致性控制能力。
人物表演
prompt:拳击手被击倒,挣扎着站起来,脸上满是汗水和固执。
Seedance 1.0 在情感方面,Pro并没有达到极致,但是与过去同类模型相比,Pro已经迈出了一大步。表情控制能力仍在进化,细节仍有局限性,如嘴角和眼角肌肉反应不够细致,面部变化也不总是连续的。但它确实能表现出“笑、担心、恐惧、紧张、坚定”的基本情绪,并不是固定的脸谱,而是可以随着前后文字的变化而表达的形式。
该模型发布后,Seedance已接入即梦(视频3.0 Pro)和豆包APP(底部的「照片动起来」),用户可以直接使用,也可以通过火山引擎API访问自己的业务。价格也比较低,每千个tokens只需要1分5,相当于每个5秒视频3.67元左右。在大量视频的需求下,这个成本是可控的。
不过,目前Seedance仍有一些限制。比如生成时间基本控制在10秒以内,镜头切换虽然支持2-3个,但是还没有看到更复杂的剧本。生成也不是很稳定。如果你想获得一个满意的视频,你就无法摆脱更多的命运。。
豆包1.6:
在多模态和使用方面迈出了一步
再次看看豆包1.6,这是本次发布时更倾向于通用模型更新。它主要更新了三个版本:主要版本:(doubao-seed-1.6)、深度思考版(doubao-seed-1.6-thinking)和极速版(doubao-seed-1.6-flash)。在多个权威评价中,豆包1.6的整体能力进入了第一梯队,尤其是与数学和推理相关的任务,得分明显提高。

具体而言,这一代模型增强了搜索和DeepResearch的能力。现在你可以试试火山发动机的AI体验中心。


用户可以直接要求它完成一些复杂的任务,模型可以拆分任务,搜索信息,提炼内容,最后生成报告。我们也可以在GPT-4和Claude中看到这个功能,但是豆包更适合国内用户,不需要熟悉复杂的操作步骤就可以打开使用。
豆包1.6最强的还是多模态的实用性。并非能够识别图片,能够观看视频,即使是多模态,也要把这些能力放在特定的场景中。
这个任务不仅可以通过语言生成,还可以整合图像、动作和提示词之间的信息,而豆包1.6在这个方向上确实做了一些实用的尝试。
另外一点值得注意的是操作技巧。AgentKit现在支持图形界面操作,可以打开网站,填写表格,浏览图片,下订单。
比如输入“打开豆瓣电影,找到今天在北京上映的电影,选择分数最高的电影,打开购票页面,截图停留。”它会依次打开网页,查找电影,筛选条件,最后确认下单。这个功能的完成度不低,可以做一些流程重复、逻辑清晰的轻任务。

在价格方面,豆包1.6也重新制定了策略。目前,所有任务都采用统一的定价模型。无论是文字生成还是图像分析,价格都是根据输入长度来划分的。最常见的0-32K区间是输入0.8元/百万tokens,导出8元/百万tokens。与豆包1.5相比,综合成本下降了63%左右。简单来说,价格更接近豆包1.0,但能力是它的几倍。

OpenAI 卷曲能力,字节卷什么?
这次更新的背后,其实是字节模型战略的持续。它强调的是组合能力和产品落地,而不是在单个模型参数上卷得特别猛。
在To C端,豆包已经在做APP化了,用“聊天” “工具”形式包装模型;但是在To中 B端,它依靠火山引擎提供从基本模型API到完整解决方案的全套AI服务。大型字节模型更新节奏不是盲目加速,而是与业务工具同步,比如最近更新的PromptPilot(提示词调优工具)、AgentKit(智能体开发平台)、Seedance,多模态操作台,甚至视频生成场景,都与模型不分离,而是集成设计。
它和OpenAI一样、与百度的路线相比,有所不同。OpenAI继续专注于非常实用的非常模型,例如,GPT-4o将语音、图像和文本形成统一的输入输出逻辑,目标是成为人类界面;虽然百度已经整合了很多产业链,但仍然保留了更多的平台概念,有些场景需要开发者重新组装。
字节不再是卷模模型的问题,而是卷模是否可以使用的问题。
在这一点上,它有点类似于微软Copilot的逻辑,但它有自己的中国玩法。微软的优势是Office生态绑定公司,字节的玩法是基于内容。 双生态工具:一方面利用内容业务抖音等检测模型生成能力,另一方面利用火山引擎导出服务,将能力转化为服务,最终成为系统级商品。
而且从内部资源配置来看,字节策略也很明确:模型团队并不孤单,很多模块直接配合产品线的需求,比如语音播客、视频生成、搜索推荐,这样模型迭代从一开始就与实际场景挂钩,而不是自封。
大型工厂AI模型开始加速奔跑
谈到这里,其实有一个不可回避的问题:现在这些大厂在AI这件事上,到底卷到了什么程度?
由阿里、腾讯到字节,确实都在加速,而且每个家庭的方向都有些不同。
阿里专注于模型规模和通用能力。比如Qwen家族主要推广前后文和工具链,目标是拉齐OpenAI的能力,特别强调开源。
腾讯更注重业务融合,Agent布局做得早,关键在于To。 B场景,如政务、公司服务等。,并推出了元器等产品。
字节显然是以内容和多模式为核心阵地,基于内容生成和产品用途,从豆包模型、Seedance视频到语音播客。
他们走的路线不一样,但是节奏很快。你会发现这一年,模型迭代不再是半年一次,而是每两三个月一次。有的是版本更新,有的是新产品挂钩。但共同点是,每个人都不是在比较自己是否拥有它,而是在比自己是否负担得起、需要和快速使用它。
而且还有一个趋势也相当明确:在实验室里,AI已不再是跑分的东西。当你发布一个模型时,别人不再只关心你的推理速度和BLEU分数,而是问——可以挂在网页上吗?可以在手机上跑吗?价格怎么样?可以直接收到现在的系统吗?
从这个角度来看,虽然行业内没有太多技术噱头,但字节的这波模型更新确实很扎实。无论是Seedance的视频质量,还是豆包1.6的多模态能力,至少给了一些可以用的东西。对于开发者和中小企业来说,他们现在更关心的是这些东西是否可以使用,成本如何,安排是否复杂,而不是你的参数有多大。
所以说到底,大厂在AI这场竞争中,其实,比较的不是谁先创造最强的大模型,而是谁先把模型做成商品,谁先让用户真正使用,谁在不增加使用门槛的情况下支撑规模和成本。
现阶段大家还在跑步,但是已经可以看到几个不同方向的势能了。接下来我们要看的是,可能不是谁先发布GPT-5级模型,而是谁能真正把AI塞进每一个具体的应用场景,让它像水电网一样成为基础设施。谁做得越快越稳,在这场AI基础设施竞赛中就越有可能走得更远。
本文来自微信微信官方账号 直接面对AI”(ID:faceaibang),作者:余测,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




