字节跳动携Helios大模型：破解AI视频生成的“不可能三角”

03-28 06:33

技术的护城河，构筑于对底层架构的极致重构之上。

Seedance 2.0登顶Sora之后，AI视频生成领域便陷入狂热与焦虑交织的状态。

即便强大如Seedance 2.0，依旧难以突破该领域的“不可能三角”：

模型规模、生成时长与推理速度始终难以兼顾。

若想拥有Seedance 2.0般的电影级画质，就必须依赖字节这类大厂打造的百亿参数多模态模型，代价却是最长15秒的视频时长、高昂的单次生成成本以及十几分钟的等待时间。

若追求快速出片，就不得不向参数量妥协，采用约10亿参数的小模型，结果便是画面模糊、细节缺失，超过10秒就会出现崩溃。

要是无法实现高质量、实时的长视频，AI视频生成就永远无法触及电影级应用。

不过，推出Seedance 2.0这一划时代作品的字节跳动，野心远不止于此。

由北京大学与字节跳动等机构联合研发的Helios大模型，正试图以利刃劈开这一“不可能三角”。

Helios是首个能在单张英伟达H100显卡上，以19.53帧/秒（FPS）速度运行的140亿参数大模型。

这个参数量虽不算轻量级，但与各大AI厂商的旗舰大语言模型相比，只能算是“迷你版”。

尽管“身材”略显单薄，但其画质可与当前顶尖模型媲美，还能以接近“实时”的速度连贯生成长达数分钟的视频。

01 令人头疼的“长程漂移”

使用过即梦、可灵、Sora的用户或许都有过这样的疑问：为何视频生成最多只有10秒或15秒？即便用户再富有，也无法突破这一限制。

实际上，这不仅是算力问题，即便强行延长生成时间上限，视频效果也未必理想：

AI生成的视频往往前几秒画面惊艳，但随着时间推移，画质会迅速下降，比如主角面部特征无法保持、肢体结构突变、背景扭曲、动作违背物理逻辑等。

这就是“漂移”现象。

AI生成视频的过程，与大语言模型问答类似。大语言模型需依据记忆和上下文给出后续回答，多模态模型同样需要“基于历史，绘制未来”。

在FPS固定时，视频越长，帧数越多，意味着AI需从每一帧中记忆的信息呈几何级增长。

在此过程中，哪怕前期生成的画面存在一丝微小瑕疵，也会在后续生成中不断累积放大，最终导致全面崩溃。

为解决这一问题，早期学术界最直接的方法是在训练AI时让其一次性生成长片段，以避免瑕疵扩大，但这种强化学习方法易出现欠拟合和过拟合问题，算力成本更是高得难以承受，百亿参数大模型根本用不起，10亿参数已是极限。

因此，Helios的研究团队意识到，需从视频生成过程中寻找突破口。

他们首先发现，长视频崩溃常伴随画面亮度和色彩的整体失控，而视频开头几秒通常不会出现这种问题。

于是，“首帧锚点（First Frame Anchor）”机制应运而生。

研究团队将视频第一帧定为整个生成过程的“定海神针”，AI在后续漫长生成中必须紧紧“盯住”第一帧，锁定全局外观分布。

无论提示词要求后续画面如何发展，第一帧确立的整体色调和人物身份都能随时将AI拉回正轨，避免“画风突变”。

但即便如此，瑕疵仍不可避免，因此必须让AI学会处理这种“不完美”。

Helios在训练阶段采用了一种特殊手段：帧感知破坏（Frame Aware Corrupt）。

简单来说，就是随机向AI依赖的历史画面加入各种瑕疵，让AI通过强化学习降低对历史画面的绝对依赖，并学会依据常识修复各类问题。

经过这种训练，Helios对误差的容忍度极高，视频再长也不易崩溃。

最后一个需解决的问题是位置偏移和重复运动。

AI生成视频时的位置编码是绝对的，当生成视频长度超过训练时见过的最大长度，注意力机制紊乱会导致画面闪回初始位置。

Helios将位置编码改为相对参考，不再关注“这是第X帧”，而是关注“这是过去几帧的延续”，从根源上杜绝了动作的周期性重复。

02 算力的“魔法”

画质崩坏问题在软件层面得到解决，但更严峻的挑战来自硬件层面：

140亿参数说多不多、说少不少，如何让它在单张显卡上实现19.5 FPS的实时运行？

AI视频生成本质与大语言模型无异，普遍采用的Diffusion Transformer（DiT）架构同样运用自注意力机制捕捉视频的空间细节（单帧内容）和时间连贯性（帧间运动）。

但由于向量空间中图像维度高于文本，视频每一帧内容的计算量远大于大语言模型的一次问答。视频延长短短几秒，计算量和显存占用就会指数级增长，必须借助GPU集群分摊压力。

用算力换取画面质量和视频时长，Sora的关闭以及Seedance 2.0发布后的“降智”已给出明确答案：从商业角度行不通。

Helios果断选择了其他路径，这套名为“深度压缩流（Deep Compression Flow）”的底层重构方案，从token缩减、步数蒸馏到显存管理，几乎榨干了GPU的所有潜能，如同变魔术般上演了“见证奇迹的时刻”。

1. token视角：时空维度极致压缩

首先要解决的是视频上下文过长导致显存不足的问题，Helios给出的方案是对时空维度进行非对称压缩。

前面提到，AI生成视频是“基于历史，绘制未来”。因此，准备多久的“历史资料”是关键问题。

对人类而言，记忆类似数据结构中的“栈”，后进先出：我们对前一秒的事记忆犹新，对十分钟前的事则记忆模糊。

Helios完全借鉴了这种仿生学的多期记忆分块机制，将AI需回顾的历史画面分为短期、中期和长期三种。

对于几帧前的画面，Helios保留最高清细节；对于多帧前较久远的画面，Helios进行高强度压缩，仅保留最粗略的全局布局。

这个简单思路让Helios在回顾久远历史画面时，token消耗仍保持在极低的恒定水平，历史信息的显存占用直接压缩至原先的八分之一，彻底解决了单卡运行“爆显存”的难题。

生成画面时，Helios也未直接在最高分辨率下开始，而是采用自底向上的开发策略。

这类似画家绘画，先在低分辨率下快速勾勒整体颜色和布局轮廓，再逐层放大，精雕细琢边缘和纹理等细节。

早期去噪决定宏观结构，后期去噪优化细节，通过这种任务拆解机制，计算量可降至一半以下。

2. 步数视角：对抗性分层蒸馏

AI视频生成速度慢，是因为传统扩散模型需要约50步反复去噪。

过去的视频生成模型在学习一步到位时，为防止忘记历史画面“断片”，必须通过“模拟展开推理”训练。

模型生成一段视频后，不仅要靠奖励模型评判好坏，还要续写几段模拟未来的长视频。

毫无疑问，这种做法会导致耗时极长和显存爆炸。

但Helios采用“纯教师强制（Pure Teacher Forcing）”模式，让模型无需模拟未来视频，而是直接将海量真实连续视频切片作为唯一参考标准喂给模型。

模型每次训练，仅专注于在给定真实历史画面下“完美画出下一小段”，去除复杂模拟过程后训练效率指数级提升。

去噪过程中，也存在类似大语言模型的蒸馏机制。

但知识蒸馏总有一个致命缺陷：学生上限不会超过老师，下限却可能低于老师。一旦缺点被放大，生成视频质量自然下降。

为此，Helios引入基于真实视频的对抗性后训练，如果学生去噪结果只是模仿老师，缺乏真实物理细节，就打回重做。

这种严格训练方式，奇迹般地将原本需要50步才能实现的画面保真度压缩到仅3步。

3. 显存视角：重构调度机制

GPU显存是固定的，但模型中有多个子模型需串行计算。

为此，研究团队设计了一套高级调度机制，利用专属数据通道，仅在GPU中保存正在计算的子模型，计算结束闲置时，立即将参数转移到CPU待命。

对于PyTorch等现代AI训练框架，前向计算时中间变量会保存到显存以备反向传播。

研究团队注意到这一环节后，直接打破了框架底层计算逻辑，只要梯度计算完成，立即手动触发程序并在毫秒级释放激活状态，硬是节省出一倍以上的空闲显存。

此外，官方深度学习框架还有许多隐藏的数据传输损耗。

为进一步加速视频生成，研究团队直接绕开PyTorch，用底层编译器语言Triton编写核心代码，甚至在传统注意力机制计算中，直接剔除了内存占用复杂度中的一个乘数维度。

正是这一系列从算法底层到显存调度的极致优化，让140亿参数的大模型在H100上创造了奇迹。

03 Helios：重构AI视频的商业格局

一项底层技术的突破，往往可能引发产业链变革，而Helios恰好诞生于研发Seedance 2.0的字节跳动。

这个规模适中的模型，却具备“高质量+实时+单卡+长时间”这一前所未有的特性组合，精准突破了AI视频商业化的壁垒。

Sora的关闭、Seedance 2.0发布后不久被发现“降智”的事实，表明阻碍AI视频大规模ToC端落地的最大障碍是高昂价格。

近一年来，市面上效果较好的视频生成模型，生成一次10秒左右的视频都需消耗极高算力成本。

采用订阅制时，现有调用量只会让AI公司亏损；即便向B端企业开放API，不仅技术上存在差距，靠模型产出商业化成品的费用也让开发者望而却步。

但Helios将140亿参数模型的运行门槛直接降至单张H100，且吞吐量极高。

尽管消费级显卡仍无法胜任，但这意味着云厂商和SaaS平台的单路并发成本将大幅降低，API商业模式可能迎来质变。

现有的按生成次数付费的积分制，未来可能转变为与大语言模型一样的按token计费。

只有当生成成本足够低时，多模态模型才能从“奢侈品”转变为像大语言模型一样的基础设施。

Helios带来的另一个颠覆性商业想象是，AI视频生成即将摆脱“离线渲染”标签，成为实时互动引擎。

无论是Seedance 2.0还是Sora，本质上仍是高级离线渲染器：用户输入提示词、模型开始生成、等待一段时间、获得一段“开盲盒”式的视频。

这种非实时交互，注定只能作为内容制作的素材生产工具。哪怕效果不佳，费用也得照付。

但Helios已展现出实时互动引擎的雏形。19.5 FPS的速度和连贯的上下文记忆，简直是为交互式生成量身定制。

若未来用户能在视频生成播放过程中动态修改指令，将直接打开世界模型、沉浸式体验甚至具身智能等商业空间。

Helios的出现，为整个AI视频生成赛道的参与者指明了新方向：

与其通过削减参数换取生成速度，不如在记忆管理、蒸馏机制和显存调度上多下功夫。

技术的护城河，构筑于对底层架构的极致重构之上。

本文来自微信公众号“硅基星芒”，作者：思齐，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

出境常中转，武汉还是国际航空枢纽吗？

创新药板块集体爆发：多股涨停引爆市场，行业迎来发展新机遇

游戏耳机不止于电脑前 HyperX飓风3加强版拓展多元使用场景

忽视核心问题，IP系列化开发终将流于表面

明日开启！杨浦共青森林公园邀您“花”样赴春约

项目推荐

梯影传媒

AI云印侠

宾果智能