Sora同款思路的微软爆裂级单图生数字人，“比AI刘强东还真”

04-24 14:14

微软发布一张图片生成数字人技术VASA-1，网民们看到了大喊“爆裂级效果”，比“AI刘强东还真”。

话不多说，直接上一分钟演示视频：

要达到真假难辨的效果，不需要对特定人物进行训练，只需上传一张人脸图片，一段音频，即使不是真人也可以。

例如能让蒙娜丽莎唱Rap，模仿安妮海瑟薇即兴吐槽狗仔队名字的场景。

或让素描人像念华强台词。

项目主页上还有更多1分钟的视频，以及更多15秒的视频可以观看。

不同性别、年龄、种族的数字人，用不同的口音说话。

根据论文中团队的描述，VASA-1具有以下特点：

唇型与语音的精确同步

它是最基本的，VASA-1在定量评估方面也达到了顶级水平。

丰富而自然的面部情绪

不但可以让照片“张嘴说话”，眉毛、眼睛、微表情等也可以协调运动，防止显得呆板。

人性化的头部动作

适当的点头、摆头、歪头等操作，可以使人物看起来更生动，更有说服力。

总的来说，如果你仔细看，你的眼睛还是有一些漏洞的，但是已经被网友评为迄今为止最好的演示”。

但更可怕的是，整个系统的推理速度仍然很快。即时级的。

用英伟达RTX4090显卡生成512x512分辨率的视频，可以跑到40fps。

那么，VASA-第一，怎样做到这一点？

01 三大核心技术，Sora同款思路

一句话概括：

并非直接生成视频帧，而是在潜在空间中生成动作代码，然后转换成视频。

是否与Sora的想法非常相似？

实际上VASA-1模型架构选择Diffusionion Transformer，还与Sora核心部件一致。

根据论文描述，背后还有三大核心技术：

学习人脸潜编码，这个部分是高度解耦的。

在大量真实的演讲视频中，团队学到了一个理想的人脸特征空间。

在隐藏的空间中剥离身份、外貌、表情、姿态等因素。这样，同样的动作可以驱动不同的脸部，对任何人来说都是自然的。

头部运动生成模型，这个部分是高度统一的。

不同于以往的方法各自建模嘴唇、眼睛、眉毛、头部姿势等局部动作，VASA-用Diffutiontion动态统一编码所有面部。为了建模其概率分布，Transfromer模型，即SORA同款核心部件。

这不仅可以产生更加和谐自然的整体动作，而且可以借助transformer强大的时间建模能力，长期依赖学习。

举例来说，给出一组原始序列(下图第一列)，最后可以做到：

改变面部情绪(第二列)，采用原始头部姿态。

改变头部姿势(第三列)，使用原始面部情绪。

利用原始面部情绪，生成全新的头部姿态(第四列)

最后是高效率推理。

为实现秒即时生成，团队大大提高了扩散模式的推理过程。

此外，VASA-1还允许用户输入一些可选的控制指令，如人物的视觉方向、情感基调等，进一步提高可控性。

02 人工智能造假的成本越来越低

在被VASA-1效果震惊之后，许多人开始思考，把AI数字人做得这么真实，发布这样的技术真的合适吗？

说到底，我们已经看到了太多用AI伪造音频和视频诈骗的例子。

就在两个多月前，一个假冒企业CFO开了一个视频会议，直接骗了1.8亿。

同时，微软团队也意识到了这个问题，并发表了如下声明：

本研究的关键在于为数字人生成视觉情绪，以实现正面应用。无意建立误导或欺骗的内容。

但是，就像其它相关内容生成技术一样，它仍然可能被滥用来模仿人类。

我们反对任何误导或有害内容创造真实人物的行为，并有兴趣应用我们的技术来促进伪造检测...

现在VASA-1只发表了论文，看来Demo或者开源代码在短时间内也不会发表。

微软表示，这种方法产生的视频仍然包含可识别的痕迹，数字分析表明，与真实视频的真实性仍有差距。

如果不去专业的评价方法，如果人们看到了，可以仔细挑剔或者直接对比真人视频，确实可以发现VASA-1演示视频中的一些缺陷。

比如牙齿偶尔会变形。

而且眼睛还没有真人那么丰富。(眼睛的确是心灵的窗户啊)

但是以AIGC一天，世界一年”就进步速度而言，修复这些缺陷恐怕也不需要很长时间。

而且你能保证每时每刻都提高警惕，辨别视频的真伪吗？

看到不再是真的。默认情况下，不相信任何视频，成为今天许多人的选择。

无论如何，就像一个网友的总结。

已经完成的发明我们无法撤销，只能拥抱未来。

参考链接：

[1]https://www.microsoft.com/en-us/research/project/vasa-1/

[2]https://x.com/bindureddy/status/1780737428715950460

本文来自微信微信官方账号“量子位”（ID:QbitAI），作者：关注前沿技术，授权发布36氪。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

老板智库丨电梯广告行业简析：龙头企业地位稳固，投屏创新“突出重围”

项目推荐

康小虎 · 健康小屋

蓝丝带

毛加健康