A16Z最新洞察:视频模型从狂飙到分化,产品化带来新机遇

2025-10-29

在过去一年,视频生成模型发展迅猛,几乎每周都有新模型登场,不断刷新基准成绩,如生成更长视频、展现更真实物理效果、呈现更一致角色与镜头语言等。但今年节奏改变,若关注基准测试,会感觉‘进步’放缓,多数主流模型能生成10 - 15秒带同步音轨的视频,效果虽惊人却不再令人新奇。

不过,这并非坏事。A16Z合伙人贾斯汀·摩尔认为,我们正步入视频模型的‘产品时代’。简单来讲,视频模型的进步不再体现于模型参数或基准分数,而是体现在多样性和专业化上。如今,不同模型在特定能力上各有突破,如物理模拟、卡通风格、多镜头剪辑等,没有一个模型能‘通吃全场’,但每个模型都在某一维度更擅长。与此同时,更大的机会从模型本身转向‘围绕模型’的产品构建,那些能简化创作流程、抽象复杂操作的工具,正变得比模型本体更有价值。接下来,让我们跟随贾斯汀·摩尔看看视频模型过去一年的变化。

01 视频领域不存在最强模型

过去几年,各大扩散模型实验室不断推出性能更强的新版本,在测试榜单上屡创新高。人们逐渐形成一种共识:总有一天会出现一个‘神级模型’,在所有视频生成任务中表现最出色,成为行业默认标准。

然而,这一假设近期被打破。上个月发布的Sora 2,在LMarena等测试中表现不如Veo 3,成绩不升反降。很多人开始怀疑扩散模型的技术进步是否变慢,所谓‘最强模型’的概念,在视频领域可能根本不存在。

其实,大语言模型也曾经历类似阶段。2023 - 2025年,主流模型性能持续上升,之后在评测中渐趋稳定。此时,研究机构开始将重心放在具体场景和垂直领域,而非单纯追求高分,基于这些模型的AI产品也快速落地。

回顾视频模型,其在公开测试上进展放缓也不难理解。过去几年,它们在‘真实感’方面进步显著,如今很多生成视频已非常逼真。到了这一阶段,再追求‘更真实’就很困难,因为已与现实几无差别。这就如同17、18世纪的油画大师,能画出接近照片的肖像和风景,之后大家不再纠结写实,而是关注作品风格和审美取向。

若‘更真实’不再是模型的优势来源,未来可能会出现更多风格化、专业化的模型。每个模型不再追求通用,而是各有专长,资源丰富,选择增多,视频生成正进入‘百花齐放’的新阶段。

02 视频模型价值开始分化

在探讨模型‘专业化’之前,先回顾一下过去。2024年初,视频生成技术还很原始,生成3 - 4秒的稳定片段都困难,物理效果常出现问题,如人物突然‘融化’到地板上,篮球轨迹奇怪却能进篮筐等。当时曾说,距离AI拍出像皮克斯那样的短片还有很长的路要走。而现在,一切都改变了。

谷歌推出的Veo模型登上多个排行榜榜首;OpenAI用30人团队、3000万美元预算制作一部完整的AI动画长片(虽非完全由模型生成,但也是一大飞跃)。如今,视频长度增加,物理细节更真实,篮球从篮板反弹再落地已成为标配。

不过,在整体水平提升的同时,也出现了另一个趋势:模型变得专一,各有特长。原因很简单,没有一款模型能满足所有用户需求,有的团队专注提速和成本控制,有的专攻后处理阶段,让模型在某些场景表现出色。

例如:Veo 3最擅长物理细节、复杂动作,音画同步也最佳;Sora 2可根据一句话生成有趣的多镜头视频,像在帮用户‘拍短剧’;Wan是开源模型,支持很多风格化插件(LoRA),适合定制风格;Grok速度快、成本低,适合动画内容;Seedance Pro可一次生成多镜头结构;Hedra在长时间对话类视频中表现最稳。

以Veo和Sora为例,两者都很强,但方向不同。Sora适合创作趣味内容,如生成‘霍金打篮球’的视频或把人放进某部电影里,更像‘故事导演’,适合普通用户和meme创作者,但在物理表现、音视频同步方面不太稳定。相比之下,Veo更‘专业’,缺乏幽默感,需要更清晰的指导,但动作、镜头、音画同步更精确,适合内容创作者、影视工作者等对质量要求高的用户。

这种‘专业化’趋势带动了整个生态链的发展。像Fal、Replicate这样的AI视频云平台,托管了几十种模型供用户按需选择;Krea这类编辑工具,提供中心平台,让用户与多个模型交互并建立工作流程。当然,一些大公司仍在追求‘万能型模型’,我们也期待它早日出现,但在此之前,不同模型在不同场景‘各显神通’,已是值得期待的现实阶段。

03 AI视频下一个方向是更好的产品化

熟悉我的朋友知道,我平时会用各种视频和图像生成模型制作定制化内容,这一过程常需多个工具配合。比如,制作‘定制家具展示视频’,我会用到Ideogram、nano - banana和Veo3;若要在已有视频中添加‘产品赠品’的动画片段,则需依靠nano - banana、Hedra,再加上Krea和Kapwing等编辑工具。

这些组合工作流程较为复杂,并非每个人都有时间和精力去折腾。我们确实需要更好的一体化产品来简化创作过程。目前模型能力已很强,但对应的产品进度仍有很大提升空间。

很多创作者正手动拼接多个模型的功能来完成本可自动实现的事情。例如,要让角色在不同镜头中保持一致,需手动调整人物形象;延续上一个镜头的结尾画面,要导出最后一帧作为下一段的起始条件重新生成;控制镜头运动轨迹,要先用图像模型画出起点和终点画面,再通过其他工具推导中间过渡过程;做一张故事板,也要靠拼贴、截图、剪辑多个片段完成。

这些本可由模型自动处理的工作,如今仍依赖创作者手动拼接,这正是产品体验和创作效率之间的巨大断层。不过,有些团队已开始尝试解决这些问题。Runway发布了一套工具,可让用户修改镜头角度、生成下一个镜头、切换风格、改变天气,还能在画面里添加或删除东西。OpenAI的Sora Storyboard支持更细致地控制视频中每一帧的动作;谷歌刚发布的Veo 3.1更像是‘产品更新’而非‘模型升级’,围绕音频控制和视觉控制做了很多功能增强。

其实,这和大语言模型(LLM)类似,即便模型性能不再突飞猛进,围绕它构建实用产品的空间依然很大。视频模型现在也处于这个阶段,能力不缺,缺的是好用的产品。

未来,我们会看到更多‘小而美’的模型,专门为某个行业或某种场景优化,如室内设计、营销、动画制作等。同时,我们也需要更强大的‘创意工具包’来打通各种模态,让视频、配音、音乐等元素的生成与编辑更顺畅,最终形成一整套真正闭环的AI视频工作流。

本文来自微信公众号“乌鸦智能说”,作者:智能乌鸦,36氪经授权发布。

本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com