腾讯混元3D Lite版登场,3D模型全民化曙光初现?

2025-08-21
每个人都有望拥有创造虚构3D世界的能力。

8月15日,腾讯混元团队推出了3D世界模型的Lite版本。以往该模型需要26GB的显存,而此次引入动态FP8(8位浮点格式)量化技术后,显存需求直接降至17GB以下,消费级显卡也能流畅运行。

此前,腾讯混元3D世界模型的FP32版本虽能保留所有细节,但显存占用极高。其参数可能超十亿个,通常需大容量VRAM的GPU提升推理速度,消费级显卡无法支持。

简单来讲,FP32、FP16、FP8代表不同的「精度等级」。过去用高精度的FP32技术,虽精度还原高,但占用大量显存,还可能保留不必要细节,像背景的天空贴图等无需精雕细琢。

此次动态FP8量化技术的核心是能实时监测模型运行时的数据分布,并针对不同模块动态适配:大部分关键区域采用FP16精度,非关键部分如背景贴图等动态调整为FP8精度。

这一技术大幅降低了显存占用,虽在部分区域降低了精度,但让个人玩家也能轻松使用3D世界模型。

腾讯混元3D革新3D建模流程

腾讯混元3D世界模型是行业内首个开源可编辑的世界生成模型,能根据用户提供的图片或文字信息,直接生成完整、可编辑且可交互的世界模型,可应用于游戏开发、特效制作、教育仿真等场景。

与腾讯混元模型此前的3D模型AI生成功能相比,此次推出的3D世界模型生成的内容更丰富,涵盖环境风格、室内外场景、光线渲染等多个因素。传统3D场景开发耗时久,一个主要建筑物场景可能耗费数周甚至更久,而这种一键生成式场景带来的效率提升超乎想象。

那么,混元3D世界模型是如何快速生成360°沉浸式视觉空间的呢?

从混元世界模型1.0的模型架构来看,全景世界图像生成技术作为连接文字、图片与世界的统一代理系统,会先生成初始化世界的全景图,实现360°的全覆盖场景。

随后,系统会将整个3D世界解构为不同层级,如前景与背景、海洋与地面、地面与天空等,再基于这些层级进行3D世界重建,最终形成3D世界模型。

与传统3D场景开发相比,这种一键生成式场景不仅节省大量时间,还能输出标准化的可漫游3D Mesh资产,兼容Unity、Unreal Engine等工具。

而且,生成内容的精度已达可直接使用水平:前景内的注意力区域细节呈现到位,背景与前景分离度足够,无界限不清晰、光影模糊等问题。

但在官网体验混元3D世界模型会发现,它无法完全还原文字中的所有要求,只能还原大致的场景需求、光影颜色以及前景区域的细节。

例如,下图对应的文本要求中提到了机械世界、机器人等元素,但未在生成的场景中呈现。系统只是提炼了与构建大体世界场景相关的词汇,如赛博废土风格、天空中红色的落日等,然后分离出前景与背景 —— 将 “废弃的游乐场” 解构为前景内容,红色落日作为背景天空内容,再基于这些层级重建3D世界场景,即仅还原了场景的大致需求。

可见,混元3D世界模型目前还无法满足用户的个性化需求,但已能初步构建出前景、背景以及简单的场景细节,可在游戏开发等工作中节省不少时间。

此外,这种依照用户要求生成的3D世界模型对普通玩家而言也极具可玩性。直接输出3D Mesh资产带来了格式的统一和学习成本的降低,当AI能够完成场景解构和3D构建工作时,用户的主观能动性就成了决定生成场景的唯一变量。

3D模型热潮涌起,25年能否走向平民化?

腾讯此次将混元3D世界模型普及至消费级显卡,目的是吸引广大开发者与创作者加入 “腾讯混元3D” 生态。该模型支持从3D模型到3D世界场景的全流程内容生成,用户能创造自己的虚拟世界。

当前市面上,支持3D模型生成的AI大模型众多,如Tripo AI、Meshy AI、GENIE等。众多玩家争抢3D化赛道,导致产品功能高度同质化,也反映出 “将现实场景搬进虚拟世界” 是各厂商的核心竞争点。

在这些AI工具中,硅谷初创企业VAST于2024年发布的AI 3D基础模型Tripo AI凭借独特的产品结构脱颖而出。

与面向更广泛用户的腾讯混元3D不同,Tripo AI的定位更偏向专业创作者:进入页面后,用户可直接通过文字或图片生成3D模型,且可调参数相对丰富,不仅支持纹理生成功能,还能自动拆分模型部件,让每个拆解后的部件可单独编辑,甚至支持为模型部件绑定基础动画并演示,不过演示过程中偶尔会出现部件变形问题。总体而言,Tripo AI是一款功能成熟、可适配多场景的AI 3D工具。

同样在2024年推出的Meshy AI(由国内团队创建),虽也支持通过文字、图像直接生成3D模型,但其核心优势在于更完善的社区功能:用户可在社区内浏览其他创作者的3D模型作品,平台对模型的分类细化清晰,还标注了互动量、点赞数、是否支持3D打印等关键信息。这一设计让新手用户能直接下载现成的3D模型使用,同时也提升了社区的传播度与活跃度。

而由Luma AI推出的GENIE工具,除支持文本转3D模型、多格式(如OBJ、FBX等)导出以适配不同场景外,最大亮点是提供API接口,用户可通过该接口直接将视频内容转化为3D模型,形成差异化竞争力。

不难看出,上述产品均凭借自身特色在同质化竞争中突围,腾讯混元3D也不例外。尽管其3D模型生成功能与其他工具未拉开明显差距,但 “高免费额度” 是其核心优势:在混元AI 3D官网,每位用户每天可免费生成20次模型,次数耗尽后还能通过分享好友重新获取。这种 “以量换用户” 的推广策略相当成功,在3D世界模型Lite版发布前,其社区模型下载量已达230万次,成为全球最受欢迎的3D开源模型平台之一。

此次腾讯推出适配消费级显卡的混元3D世界模型Lite版,必将吸引更多创作者加入其生态。用户规模的增长,将进一步推动反馈迭代与应用场景拓展:以当下热门的VR眼镜为例,混元3D导出的3D世界模型文件可直接导入使用,用户只需拥有VR设备,就能随时随地沉浸在自己创建的虚拟场景中,实现生态与硬件的联动;同时,AI 3D基础模型能让普通用户轻松制作高度自定义的3D模型,与3D打印机形成协同。

更重要的是,AI 3D化近乎 “零学习成本” 的特性,正推动其快速渗透至各行业:在建筑规划、室内设计、电商展示等场景中,3D可视化内容比文字或传统图纸更易理解,工作人员无需复杂学习即可输出场景内容,大幅减少重复建模的时间;这种 “虚拟模型 + 实体行业” 的联动,既能提升用户粘性,又能让用户因高度自定义内容产生归属感。种种趋势表明,3D模型在2025年势必走向大众化。

小雷认为,未来的AI 3D模型将进一步整合专业场景模型与创作风格,通过细分领域和使用场景吸引更多垂直用户,不断拓展生态边界并渗透到各类生活化场景中。

而这,正是本次3D模型平民化浪潮的核心意义 —— 在现实与虚拟交融的当下,让每个人都拥有构建3D虚拟世界的能力。

3D模型普及,3D建模师会失业吗?

不过,网上有一种观点认为,随着3D模型的普及,3D建模师会面临失业风险。对此,小雷并不认同。

不可否认,这类能快速生成3D模型的工具会对行业产生冲击。AI模型 “快速高效” 的优势是人类难以企及的;但如前文所说,当前的AI 3D模型尚无法实现真正的用户个性化,其生成的产物本质上是基于大模型学习数据产出的 “复刻式内容”。

而缺乏个性的内容难以成为优秀作品。无论是游戏建模还是建筑设计,让人记住的永远是独具匠心的设计,是3D建模师反复打磨的细节和为适配用户需求的巧思。因此小雷认为,以当前AI 3D模型的能力,想要完全取代3D建模师基本不可能;相反,作为能高效执行重复性指令的工具,它更适合成为建模师提升效率的 “辅助帮手”。

其实,“AI辅助创作” 的模式早已在各行业渗透。但受限于内容同质化问题,AI往往只能停留在 “重复的基础构建” 环节。

这也是雷科技在如今AI写作工具便捷普及的情况下,仍坚持原创的原因,小雷始终认为,真正有深度、有温度的好文章,不会因AI的存在而失色。

本文来自“雷科技”,36氪经授权发布。

本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com