Sora同款思路的微软爆裂级单图生数字人,“比AI刘强东还真”

04-24 14:14

微软发布一张图片生成数字人技术VASA-1,网民们看到了大喊“爆裂级效果”,比“AI刘强东还真”。


话不多说,直接上一分钟演示视频:


要达到真假难辨的效果,不需要对特定人物进行训练,只需上传一张人脸图片,一段音频,即使不是真人也可以


例如能让蒙娜丽莎唱Rap,模仿安妮海瑟薇即兴吐槽狗仔队名字的场景。


或让素描人像念华强台词。


项目主页上还有更多1分钟的视频,以及更多15秒的视频可以观看。


不同性别、年龄、种族的数字人,用不同的口音说话。


根据论文中团队的描述,VASA-1具有以下特点:


唇型与语音的精确同步


它是最基本的,VASA-1在定量评估方面也达到了顶级水平。


丰富而自然的面部情绪


不但可以让照片“张嘴说话”,眉毛、眼睛、微表情等也可以协调运动,防止显得呆板。


人性化的头部动作


适当的点头、摆头、歪头等操作,可以使人物看起来更生动,更有说服力。


总的来说,如果你仔细看,你的眼睛还是有一些漏洞的,但是已经被网友评为迄今为止最好的演示”


但更可怕的是,整个系统的推理速度仍然很快。即时级的。


用英伟达RTX4090显卡生成512x512分辨率的视频,可以跑到40fps。


那么,VASA-第一,怎样做到这一点?


01 三大核心技术,Sora同款思路


一句话概括:


并非直接生成视频帧,而是在潜在空间中生成动作代码,然后转换成视频。



是否与Sora的想法非常相似?


实际上VASA-1模型架构选择Diffusionion Transformer,还与Sora核心部件一致。



根据论文描述,背后还有三大核心技术:


学习人脸潜编码,这个部分是高度解耦的。


在大量真实的演讲视频中,团队学到了一个理想的人脸特征空间。


在隐藏的空间中剥离身份、外貌、表情、姿态等因素。这样,同样的动作可以驱动不同的脸部,对任何人来说都是自然的。


头部运动生成模型,这个部分是高度统一的。


不同于以往的方法各自建模嘴唇、眼睛、眉毛、头部姿势等局部动作,VASA-用Diffutiontion动态统一编码所有面部。 为了建模其概率分布,Transfromer模型,即SORA同款核心部件。


这不仅可以产生更加和谐自然的整体动作,而且可以借助transformer强大的时间建模能力,长期依赖学习。


举例来说,给出一组原始序列(下图第一列),最后可以做到:


改变面部情绪(第二列),采用原始头部姿态。


改变头部姿势(第三列),使用原始面部情绪。


利用原始面部情绪,生成全新的头部姿态(第四列)


最后是高效率推理


为实现秒即时生成,团队大大提高了扩散模式的推理过程。


此外,VASA-1还允许用户输入一些可选的控制指令,如人物的视觉方向、情感基调等,进一步提高可控性。


02 人工智能造假的成本越来越低


在被VASA-1效果震惊之后,许多人开始思考,把AI数字人做得这么真实,发布这样的技术真的合适吗?


说到底,我们已经看到了太多用AI伪造音频和视频诈骗的例子。


就在两个多月前,一个假冒企业CFO开了一个视频会议,直接骗了1.8亿。


同时,微软团队也意识到了这个问题,并发表了如下声明:


本研究的关键在于为数字人生成视觉情绪,以实现正面应用。无意建立误导或欺骗的内容。


但是,就像其它相关内容生成技术一样,它仍然可能被滥用来模仿人类。


我们反对任何误导或有害内容创造真实人物的行为,并有兴趣应用我们的技术来促进伪造检测...



现在VASA-1只发表了论文,看来Demo或者开源代码在短时间内也不会发表。


微软表示,这种方法产生的视频仍然包含可识别的痕迹,数字分析表明,与真实视频的真实性仍有差距。


如果不去专业的评价方法,如果人们看到了,可以仔细挑剔或者直接对比真人视频,确实可以发现VASA-1演示视频中的一些缺陷。


比如牙齿偶尔会变形。


而且眼睛还没有真人那么丰富。(眼睛的确是心灵的窗户啊)


但是以AIGC一天,世界一年”就进步速度而言,修复这些缺陷恐怕也不需要很长时间。


而且你能保证每时每刻都提高警惕,辨别视频的真伪吗?


看到不再是真的。默认情况下,不相信任何视频,成为今天许多人的选择。


无论如何,就像一个网友的总结。


已经完成的发明我们无法撤销,只能拥抱未来。



参考链接:


[1]https://www.microsoft.com/en-us/research/project/vasa-1/


[2]https://x.com/bindureddy/status/1780737428715950460


本文来自微信微信官方账号“量子位”(ID:QbitAI),作者:关注前沿技术,授权发布36氪。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com