年末5天连更5次 可灵AI以“狂飙式”升级引领生成式AI新赛道

12-12 06:51
允中 发自 凹非寺

量子位 | 公众号 QbitAI



12月刚拉开序幕,可灵AI便接连推出重磅功能。


全球首款统一的多模态视频与图片创作工具——“可灵O1”、拥有“音画同步生成”能力的可灵2.6模型、可灵数字人2.0功能……


短短5天内完成5次“上新”,直接将生成式AI领域的竞争推向了更激烈的高度。


可灵O1:从图片到视频,实现更强的创作“可控性”


可灵2.0发布时,曾创新性地提出全新交互理念——Multimodal Visual Language(MVL),让用户能结合图像参考、视频片段等多模态信息,把脑海中包含身份、外观、风格、场景、动作、表情、运镜的多维度复杂创意,高效地传递给AI。


基于MVL理念,在最新迭代中,可灵O1将所有生成与编辑任务整合到一个全能引擎里,为用户构建全新的多模态创作流程,实现从灵感到成品的一站式闭环。


正如a16z投资合伙人Justine Moore在产品发布后第一时间评价的:


我们终于迎来了视频界的Nano Banana。


以可灵视频O1模型为例,它打破了传统单一视频生成任务的模型界限,把参考生视频、文生视频、首尾帧生视频、视频内容增删、视频修改变换、风格重绘、镜头延展等多种任务,融合进同一个全能引擎,让用户无需在多个模型和工具间切换,就能一站式完成从生成到修改的全部创作步骤。


无论是创作者长期困扰的主体一致性难题,还是视频画面的可控性问题,在这次模型迭代中都得到了相对完善的解决。


在图片生成方面,可灵AI也完成了创新性迭代。


最新上线的图像O1模型,能实现从基础图像生成到高阶细节编辑的全链路无缝衔接。对用户而言,既可以通过纯文本生成图像,也能上传最多10张参考图进行融合再创作。


“音画同出”能力来了!可灵2.6模型完成里程碑式迭代


可灵拥有众多忠实的“发烧友”,他们既是产品的深度使用者,也能从功能层面提出专业见解。


O1发布后,不少网友排队“许愿”功能,排名靠前的几乎都在关注可灵何时推出伴随视频画面的语音及音效直出功能。


答案很快揭晓。


12月3日晚,可灵AI继续“放大招”,正式推出2.6模型。


这次更新中,可灵AI上线了里程碑式的“音画同出”能力,彻底改变了传统AI视频生成模型“先生成无声画面、再人工配音”的工作流程。


它能在单次生成中,输出包含自然语言、动作音效和环境氛围音的完整视频,重构了AI视频创作的工作流,大幅提升创作效率。


可灵AI海外超级创作者、AI电影导演Simon Meyer制作的宣传片,生动展现了可灵2.6的能力创新点。


对创作者来说,输入文本或结合图片与提示词文本,都能直接生成带有语音、音效及环境音的视频。


语音部分目前支持中文和英文生成,视频长度最长可达10秒(据悉,更多语言体系及固定声线等功能正在研发)。


通过对物理世界声音与动态画面的深度语义对齐,可灵2.6模型在音画协同、音频质量和语义理解上表现出色。


对“音画同出”能力感兴趣的朋友可以尽快尝试,说不定会和Simon Meyer产生强烈共鸣。


密集更新背后,可灵AI的布局深意


除了全新推出的可灵O1和2.6模型这两大重磅更新,可灵上周还相继推出数字人2.0、可灵O1主体库&对比模板等功能,从AI内容生成的实际流程出发,带来更便捷的操作体验。


5天内5次“上新”,功能精进的背后是可灵对生成式AI技术的极致追求。


比如12月1日推出的视频O1模型,打破了视频模型在生成、编辑与理解上的功能割裂,构建了全新的生成式底座。


融合多模态理解的Multimodal Transformer和多模态长上下文(Multimodal Long Context),实现了多任务的深度融合与统一。


根据可灵AI团队的内部测评,在“图片参考”任务上,可灵AI对Google Veo 3.1的整体效果胜负比达247%;在“指令变换”任务上,与Runway Aleph对比的整体效果胜负比为230%。


值得一提的是,作为国产视频生成大模型领域的代表,自2024年6月正式推出以来,可灵AI的每一次迭代几乎都能引发业界的“集体关注”。


从早期备受热议的“吃面条”案例,到特斯拉创始人马斯克的点赞,再到此次“批量上新”操作,在视觉生成技术逐步成熟的过程中,可灵AI无疑是常引发共鸣的关键角色。


△ X网友Min Choi发布的文章,对比了不同技术下“威尔·史密斯吃意大利面”的经典场景


在持续引发讨论的同时,推进技术的广泛应用落地也是生成式AI平台必须面对的问题。


数据显示,可灵AI目前覆盖的企业用户超2万家,涵盖影视制作、广告、创意设计、自媒体、游戏、电商等多个领域。


多元的行业客户结构,要求可灵AI不断突破技术应用的上限。


比如此次升级的可灵2.6模型,支持说话、对话、旁白、唱歌、Rap、环境音效、混合音效等多种声音的单独或混合生成,能广泛应用于各行业实际创作场景,大幅提升效率;


再如数字人2.0功能迭代,创作者只需上传角色图、添加配音内容并描述角色表现,就能得到表现力生动的“自定义数字人”,更令人惊喜的是,视频内容最长可达5分钟。


快手高级副总裁、可灵AI事业部负责人兼社区科学线负责人盖坤曾在多个场合表示:


我们的初心是让每个人都能用AI讲好故事,也真切希望这一天早日到来。


从可灵AI年末的一系列更新中,我们感受到这一天越来越近了。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com