AI视频爆炸“卷”,大厂向左,创企向右。
"产生的角色一转身就变成了外国人,怎么解决?"
"没有办法,10s动作大,人物一致性有问题,只能抽卡,多刷几次,选一个变化不大的。"
在一个以Ruanway学校为主题的群体中,关于AI视频生成的各种问题不断出现,有AI视频生成使用经验的群体也在积极分享自己的使用方法论,回答相关问题。
这种AI视频生成相关的群聊并不少见,每个群体都非常活跃。大多数用户对AI视频生成工具非常感兴趣,并在各种平台上分享基于AI视频生成工具创建的视频内容。
在今年2月Sora发布的背后,国内用户积极探索和使用AI视频生成工具,作为行业发展方向标,完全引爆了国内AI视频大模型生成跑道。
三月份字节跳动的剪影Dreamina(即梦)开放内测;四月份,AI公司生数科技发布号称首个国产自研视频生成大模型Vidu;六月份,快手可灵AI正式开放内测。
七月,商汤推出了最新的AI视频模型 Vimi,阿里达摩院还发布了AI视频创作平台“寻光”,而爱诗科技则发布了PixVerserserser。 V2,快手可灵宣布再次升级基本模型,并全面开放内部测试,智谱AI还宣布AI生成视频模型清视频模型(Ying)智谱清言正式上线。
与此同时,这些大型AI视频模型生成工具大多已向公众开放。7月30日,Vidu,一个拥有数学技术的AI视频模型,也正式向全球公众开放。
半年后,国内大型跑道终于进入了Sora时刻。AI视频大模型的整体生成能力已经进入下一阶段,从AI舞蹈、火柴人到5秒~16秒的高质量视频生成。
然而,与尚未开放的Sora相比,中国的AI视频模型已经开启了加速模式。在技术能力不断迭代升级的同时,技术应用和商业化也在不断探索。
事实上,与ChatGPT等聊天机器人相比,AI视频生成模型作为一种具有工具属性的商品,自然具有商业流动性。目前开放给大众的AI视频生成工具也采用付费模式。
比如智谱清影上线的定价策略是:首发测试期间,所有用户均可免费使用;支付5元,解锁一天(24小时)的高速通道权益,支付199元,解锁一年的高速通道权益。
然而,目前AI视频生成轨道的商业化仍处于十分初级的阶段。
“说实话,我们不知道未来的商业策略会是什么样子,也不知道最好的方式是什么。目前所谓的收费策略更多的是一个初步的尝试,尝试市场和用户的反馈,以后会及时调整。”智谱AI CEO张鹏这么说。
AIGC智能创意平台筷子科技创始人兼CEO陈万锋也表示:“目前C端用户基于AI视频大模型平台开发的视频应用指向型并不强,这些平台也不知道C端用户将如何使用这些视频。
国内AI视频生成跑道玩家无疑是在加足马力,从技术的迭代更新到技术的应用和商业化的实现。然而,从目前的市场情况来看,仍然存在许多挑战。
AI视频军备竞赛,都是“卷”什么?
用AI生成视频并不是一个新的类别,只是AI视频之前的生成时间一直卡在2s-4s,整体视频生成效果感觉还不够惊艳。
Sora一发布,就直接展示了它产生的1分钟视频,视频中展示的画面效果惊人。即使在视频动态运动的前提下,视频中出现的人物和物体也会随着空间的运动和旋转而保持场景的一致性。
Sora展示的视频内容
它可以说是震惊了整个AI级别。同时,Sora背后的技术结构也得到了业界的认识和跟进。
以前AI视频生成的技术路线主要有两类:
- 一个是Diffusion。 Model(扩散模型技术路线),主要玩家包括Runway。、Pika Labs等等。
- 一种是基于Transformer架构的大语言模型生成视频技术路线。
去年12月底,谷歌发布了VideoPoet,一种基于大语言模型的生成式AI视频模型,这在当时被认为是扩散模型之外的另一种解决方案和出路。
Diffusion 通过引入噪音,Model将一张图片变成了原始马塞克,通过引入“神经网络”,例如基于卷积神经网络。(CNN)UNet结构,从某个时间点的场景中,减少了预测的噪音,得到的是最原始的无噪音画面,即最终生成的场景。
大语言模型是通过视频数据训练大模型,使其能够理解视频数据中的基本Token词汇和相应的视频画面。当客户给出指令词时,他们可以根据所学的Token词汇生成相应的视频内容。
两种技术路线都有自己的优缺点,单个模型产生的视频很难在时长和画面效果上取得根本性的突破。Sora选择了将扩散模型与Transformer模型相结合的技术架构体系。-DiT(Diffusion + Transformer )架构。
一些业内人士认为,Sora用Transformer架构代替了Diffusion扩散模型中的U-Net架构。
两者结合的效果,一个AI从业者的形象理解为:扩散模型就像一个雕塑过程,去掉石头中不应该存在的部分,创造雕塑作品。通过自我关注机制,Transformer了解了时间线之间的联系,这个雕塑从石座上走了下来。
AIGC企业家土豆酱AIgen(艺名)也认为:“视频是一帧一帧的图像,选择UNet结构的逻辑是按照生产图像的方式制作视频。AI生成的每一个图像都是随机的,所以整个图像看起来都很闪亮。用视频训练的AI,画面相对稳定,不会闪烁,有合理的连续帧。”
所以,Sora发布后,DiT技术架构也成为AI视频玩家的主流技术架构,并且将其视为AGI的核心技术。
现在,市场上主流的AI视频工具正在生成大约4秒-10秒的视频短片。
Vidu开放文生视频和图生视频两个功能,提供4s和8s两种时间选择,分辨率最高可达1080P。从速度上看,生成一个4秒片段的实测推理速度只需要30秒。
PixVerser爱诗科技 V2可以支持生成单个时间8s的片段,一键生成1-5个连续的视频内容,主体形象、画面风格、场景元素的一致性会自动保持在片段之间。
智谱AI的智谱清影可以产生6秒的视频,只需30秒左右,清晰度可以达到1440x960(340x960):2)。
快手可灵产生的视频持续时间为5s,但其具有延长视频持续时间的功能,可将视频持续时间延长至10s,但生成视频的速度相对较慢,通常需要2-3分钟。
从技术积累的角度来看,虽然DiT架构正在布局中,但国内AI视频生成公司还处于追逐阶段,AI视频生成的时长和质量还没有达到Sora的水平。
张鹏还承认:“Sora的演示效果非常好。我们仍然是一个大致的阶段性结果,不可能像Sora演示的那样好,那么长的视频。我们总是坦率地承认与OpenAI、与世界顶级水平的差距。
然而,国内大型模型也坚持以自己的方式追求OpenAI。比如“如何降低视频生成率的成本,提高响应速度,我们在追求高科技的同时,也追求技术的普及性和支出。”张鹏说。
毫无疑问,国内AI视频大模型跑道玩家在技术上仍在追逐,但在应用和商业化方面已经领先。
图片视频成为主流,不稳定、一致性仍然是问题
随着技术架构的升级,如今AI视频产生的视频效果和持续时间,与年初有着本质的不同。
目前各AI视频大模型产品主要提供两个核心能力,一个是文化视频,一个是图片视频。两个主要功能的工作流程不一致,文化视频可以通过一个指令生成想要的视频。
而且图片视频的工作流程比较复杂,首先要通过Midjourney或者Stabley使用文字指令词 Diffusion等工具生成自己想要的图片,然后通过AI视频生成工具基于照片生成视频内容。
对于一般的商业爱好者来说,想要体验AI视频的生成效果,文生视频功能已经足够了。
但是对需要基于此进行视频内容商业化交付的从业人员来说,基本上,没有人使用文生视频。星贤文化创始人、AI原创玄幻IP《山海奇镜》制作人陈坤对光锥智能说。
对此,陈坤解释说,文化视频不能保持前后内容的一致性。就个人镜头而言,文化视频可以满足要求,看起来会很好,很惊讶,但不能保证下一个镜头与前一个镜头的一致性。毕竟AI技术不能通过一段文字描述来保持人物和空间美学的一致性。
“为了保持作品风格的一致性或人物的一致性,图片中的内容必须通过图片视频来控制。”土豆酱AIgen也说过。
去年十二月,陈坤带领团队使用。 PixVerse 制作4K分辨率预告片《山海奇镜劈波斩浪》。
图片来源:《劈波斩浪》
今年7月13日,陈坤基于快手可灵大模型再次打磨的《山海奇镜之劈波斩浪》正式推出快手平台,19日单日播放量达到2026.7万,上线十天累计播放量达到5164.9万,随后荣登德塔文短剧指数榜第一。
在陈坤看来:“一年前,AI影视很难用生动的表演来表达复杂的叙述,蒙太奇的剪辑也需要实现很多动作场景。在制作过程中,由于单个镜头的时长限制在3-4秒(当时就是这个时候),整部电影的节奏都会受到影响。”
“就AI影视跑道而言,灵魂的能力真的很强大,包括文化生活视频和图片生活视频,图片中的动作范围展示得很好。”陈坤说:“然而,每个AI视频生成工具都有自己的特点,比如Runway,它的Gen3镜头偏电影感。虽然之前只有文化生活视频功能,但是很多创作者也很喜欢。现在它还推出了图片生活视频功能。”
作为一名资深球员,土豆酱AIgen也认为:“目前最好用的是可灵,luma 还有Runway。”另一位影视从业者琪琪(化名)说,Sora的整体效果应该是最好的,但是它并没有开放。
但在具体体验过程中,虽然与一年前相比,现阶段在视频时长和质量上有了质的飞跃,但仍存在人物变形、画面不稳定、前后不一致等问题。
综上所述,从业者在使用AI视频时,主要有五个痛点:人物一致性、场景一致性、人物表演、动作交互、运动范围等。
陈坤说:“由于大型模型技术不完善,在视频生成过程中不可避免地会出现畸变。
对此,行业从业者最终会通过不断“抽卡”(让AI不断自主随机生成相关图片)获得相对满意的效果图片。
“即使我们使用可灵,在一张火神和水神战斗的画面上,我们仍然有不少于100次‘抽卡’,但我们并没有画出我特别满意的画面。之后实际使用的画面其实有一定的畸变。”陈坤说。
就现阶段的技术手段而言,短期内可能无法解决这个问题。张鹏认为:“最简单的控制方法,就是我说什么模型做什么,而且要实现这种可控性,强烈依赖于模型能否理解这一内容,而这也是多模态大模型发展的初衷。
利用发展技术解决发展中的问题,将成为未来AI视频大模型发展迭代升级的关键。“内容生成,尤其是视频内容生成,在大多数前提下,都是通过‘人用语言描述’来控制的。从自然语言到视频生成,这才是真正的可控性和更高的可控性,这才是技术上的东西。”张鹏说。
目前AI视频大模型技术还处于比较初期,没有一个AI视频生成工具已经爬到山顶。然而,在攀登山顶的过程中,生态系统的建设和商业化的实现也成为关键。
金色赛道的开始
陈万锋这样说:“技术应用于行业的速度,远比技术本身慢。AI技术发展迅速,但是渗透到行业中,估计产生价值的速度要慢十倍。
从纯技术路线发展的角度来看,从单模态到多模态,最终目标是实现AGI。然而,将AI应用于工业化和技术升级迭代是两回事。
目前国内很多大模型公司的技术追求已经过了一个阶段,他们会更加注重落地和应用。通过与场景的融合和数据反馈,他们将推动底层技术迭代升级。
与ChatGPT这类聊天机工具相比,AI视频生成是大型技术商业化的黄金赛道。
它之所以是黄金赛道,主要是基于两个方面:
一是作为AI视频生成工具,自然具有收费优势。
目前大部分AI视频生成工具都是针对C端用户的会员制。以可灵为例。目前其会员分为三类:黄金、铂金和裸钻。优惠后三档月卡价格分别为33元、133元和333元,对应分别获得660元。、3000 、大约66个、300个或800个标准视频可以生成8000个“灵感值”。
对于B端企业级客户,可以通过调用API支持收费。比如智谱AI,除了会员收费,API还在开放平台上开放,收入一定。
另外一方面,AI视频生成工具模糊了创作者与客户之间的界限,尤其是在Aautorapper和Tiktok平台上,这些视频博主属于C端客户,但他们可以基于AI视频工具创作视频,成为B端视频制作人。“大C小B的消费者非常重要,甚至可能是最重要的,ToB和ToC的界限也越来越模糊,”光锥智能认为。
然而,从商业生态学的角度来看,大厂和企业在实现的思路上并不一致。
像Tiktok、Aautorapper这样的行业头部视频平台,可以通过提供AI视频生成工具,让用户通过这个工具创作相关内容,丰富视频生态模式。
“大工厂不需要销售工具,而是通过用户实现商业化。”陈万锋说:“C端在中国是一种应用付费模式(对于创业公司来说),这在中国是不现实的。未来可能只有巨头才有可能,因为用户多。”
同时,对于现阶段各平台采用的会员制收费方式,陈坤坚定地对光锥智能表示:“我不看好这个会员制。现在,即使便宜,也只对真正能商业化闭环的创作者有效。假如不是商业闭环的创作者,后续的付费率和付费意愿都不会很高。”
陈坤解释说,一方面,C端收取的会员制成本不足以训练一次大模型,而不是大工厂开发的九根牛一毛。另一方面,一旦AI视频大模型技术达到天花板,这些巨头肯定会进行价格战,以争夺用户数量。"大厂最终肯定会选择用户数量,而非赚钱."
所以,对于大型企业来说,如果只是销售工具,"ToB不能在中国ToC."陈坤这么说,而且只有面向企业端,才是唯一能实现商业化的方法。
而且企业端之所以愿意为其付费,是因为它能实现视频的商业交付,产生收入,并能支持其相应的成本。
比如陈坤通过AI短剧实现商业实现,土豆酱AIgen会根据用户的视频内容需求为客户制作AI视频内容。“最多一个月可以接收8个客户需求,平均每个月有3-4个订单。”
而且筷子技术,就是通过AI视频的生产工作流程与短视频平台的投放相结合,赚取品牌软件工具和服务的资金。
基于此,很容易看出,在AI视频的商业化中,C端或巨头将会更加成功,企业家的机会将会在B端。面向未来,Aautorapper视觉生成与互动中心负责人万鹏飞也表示,随着大模型技术能力的提高,视频创作者和消费者之间的界限逐渐模糊,视频平台的生态繁荣得到推动。
本文来自微信微信官方账号“光锥智能”(ID:guangzhui-tech),作者:鸽子,编辑:王一粟 ,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com