用AI创造元宇宙,Meta发布最强的3D材料生成模型,每分钟创造一个世界

2024-07-05

文|王沁 王奕昕


编辑|李然


由于AI,Meta的元宇宙梦不会死!


Meta 3D Gen


Meta推出了一个名为Meta的 3D 在不到一分钟的时间内,Gen端到端的3D材料生成模型可以根据文本描述建立高质量的3D材料。


图源:X(@AIatMeta)


Meta 3D Gen整合了Meta目前的两个模型:用于生成 3D AssetGen和用于精细纹路化的网格素材 TextureGen。 Meta 表示,这一集成可以为沉浸式内容带来更高质量的3D生成。


Meta 3D Gen


根据Meta的说法,3D Gen在速度和质量上都超过了行业领先的解决方案。根据技术报告,专业的3D艺术家在大多数类别中比竞争对手得分更好,尤其是复杂的要求。Meta说,**它的速度是同类系统的3-60倍。**


Meta 3D Gen


VR产业的发展速度低于预期,其中一个重要原因是建立内容的成本太高。,很难吸引内容创作者为元宇宙建立素材。并人工建立VR 由于硬件性能等各种因素的限制,3D材料的质量与平面材料相比过于“简单”,使用户的沉浸感不足。


而且如果用户能够非常方便、高效地创建3D素材,至少可以大大改善VR内容不足的问题。。如果材料的质量能够进一步提高,产生的虚拟现实世界确实能够达到真实的程度。在Gen 在AI的加持下,也许未来VR中的虚拟世界将成为AI生成比例大于人工生成的第一个领域。


Meta 3D Gen


也许小扎的VR梦,在AI的加持下,真的要成功了。


图源:X(@KaladinFree)


网民惊呼:这项技术对VR和Meta本身的发展战略非常重要。除英伟达外,Meta也许是AI发展的最大赢家!


图源:X(@sonieashan)


从文字到3D,是如何炼成的?

在3D素材模型中,从文本提示词生成, 3D 图形,动画,游戏和 AR/VR 其他领域都有很大的发挥潜力。


虽然MidJourney在文生图和文生视频模型领域取得了举世瞩目的进展(例如MidJourney)、Sora、Runway等),但是3D 在生成模型领域,过去的模型质量仍然不足以用于专业用途。


**过去3D生成模型有很多缺陷,比如生成速度慢,3D网格和线条中有伪影。此外,过去的许多模型仍然将物体的外观渲染成固有的颜色,而忽略了 3D 物体的颜色应随着光的变化而变化。**。特别是对反光材料来说,当它们被放置在一个新的环境中时,它会显得格格不入。


而且Meta的3D Gen 能在不到 30 与过去相比,3D材料在几秒钟内产生,具有相同的速度模型,在保真度上产生。 3D 在网格质量方面,特别是材料质量和控制方面,表现更好。


Meta 3D Gen


3D Gen是怎样做到如此惟妙惟肖的3D素材生成的?


3D Gen 采用两个阶段的方法,将两个部件融合在一起,第一阶段使用AssetGen部件,第二阶段使用TextureGen部件。


第一阶段:从文本到图像

这个阶段的目标是从文本中生成有着色和阴影的图像,从四个标准角度生成这些角度的四个视图。。所以,Meta团队采用了一种经过预训练的文生图扩散模式,这种模式可以在数十亿张带有标签的图像上进行练习。


第一阶段的推理时间约为 30 秒。


与其他3D材料生成模型相比,Meta的AssetGen细节、光照效果明显更加丰富和真实。



值得注意的是,这种Meta团队使用的文生图模型,其结构与国内智源研究所相同。「悟道3.0」类似于Emu开源多模式模型


第二阶段:从图像到3D

按照第一阶段产生 3D 材料和最初的文本提示,**对第一阶段的材料进行纹理细化或重新上色,从而产生更高质量的纹理和 PBR(physically based rendering,图表基于物理渲染)**。在这个阶段,Meta团队使用了从文字到纹路的文字。( text-to-texture)的生成模型 3D TextureGen。


第二阶段的推理时间约为 20 秒。


通过建立 AssetGen 和 TextureGen2个部件,3D Gen模型结合了3D物体的三种高度互补的表达方式:视觉空间(图像)、体积空间(3D) 形状和外观)和 UV 空间(纹理和材料)。


不像很多最先进的解决方案,AssetGen 和 TextureGen 全部为前馈生成器,因此布署后速度快,效率高。


下图显示了 3D Gen 效果对比从第一阶段到第二阶段。第二阶段之后,一般视觉美学比较好,看起来比较真实,高频色区的细节也比较多。



Meta团队将3D 同行们,Gen和其他文生3D模型(Meshy v3、Tripo等。)进行了比较。Meta说,竞争对手在简单的物体上做得很好,但是更复杂的物体组合和场景是有挑战性的,总是很难在高频区域的细节和暴露的视觉伪影之间取得平衡。


3D Gen还可以在相同形状的物体上进行不同的着色。。产生于第一阶段 3D 网格,然后传达到第二阶段。只要使用不同的提示,就可以创建形状相同但外观不同的新材料。3D除了实现语义编辑和全局和局部修改外, Gen 同时也能成功地模仿不同材质和艺术风格。


对同一形状的物体进行不同的着色。


不但对物体本身进行不同的着色,3D Gen也可以调整整个场景的风格。。通过加强对象方面的提示,加上风格信息,可以调整整个场景的风格,效果非常协调。


下面的图片,3D Gen便对同一物体进行了不同风格的场景渲染,包括针织娃娃、恐怖片、水下世界、像素艺术、圣诞节等。


调整整个场景的风格


90后研发部门

Gen R&D团队也很年轻,基本上都是90后组成的。


**Raphael Bensadoun**


Raphael Bensadoun


他毕业于特拉维夫大学,后来在两家小企业有了短暂的工作经验,后来来到Meta,成为AI研究人员。


Raphael Bensadoun


**Tom Monnier**



Tom Monnier


在Tinyclues和Adobe工作了一段时间后,他毕业于法国最好的工程师大学,进入Meta担任研究科学家。



Tom Monnier


**Filippos Kokkinos**



Filippos Kokkinos


他就是Meta 在Facebook之前,GenAI的研究科学家曾经在Facebook AI Research(FAIR)工作。他的研究侧重于生成性深度学习,特别注重从文本、图像和视频中生成3D的视频和技术。在加入Meta之前,他在华为等公司实习过。


伦敦大学学院毕业于博士学位。


Filippos Kokkinos


3DMeta Gen的潜在应用是巨大的。3D游戏开发者可以使用。 Gen快速制作游戏环境和角色原型,而建筑可视化公司只需要文字描述,就可以生成整个建筑和具体的内部。 3D 模型,简化设计流程。3D/MR领域 Gen 能迅速建立沉浸式环境和物体,加快元宇宙应用程序的发展。未来AI将进一步加速。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com