柔体操作数据稀缺、仿真易失真?新研究实现布料物理真实模拟,纯仿真训练策略可零样本迁移至真机

具身智能发展迅速,但瓶颈日益明显:并非模型不够大,而是高质量、可执行、可泛化的数据匮乏。柔体操作更是数据稀缺的重灾区,其状态空间庞大,涉及形变、接触和拓扑变化,依赖复杂物理过程;人工遥操作效率低、成本高,导致真实数据始终“够用却不足够多”。在此背景下,SIM1聚焦的核心问题并非“能否生成更多仿真数据”,而是“数据需先准确,数据扩增的价值才能真正体现”。
仿真曾被视为解决机器人数据稀缺的有效方案,期望用“海量仿真数据”填补真实世界的数据缺口。但很快问题显现:这些仿真数据看似数量庞大,却未与真实场景对齐,仅能用于预训练,难以直接部署;进入真实机器人场景后,仍需依赖后训练和真实数据修正。这引发了对“仿真数据极限是否仅止于此”的质疑。SIM1提出,或许此前大家过度追求“更多”,却忽略了关键前提——数据首先要准确,规模效应才能显现。
SIM1构建了real-to-sim-to-real的新范式:从少量真实示范出发,生成可直接在真实物理世界执行的仿真数据,最终转化为可部署、可扩展、可零样本迁移的策略能力。这意味着机器人领域首次有机会探讨专属的规模法则——智能增长不必再与真实世界数据采集同步。
SIM1的实际成果
结果显示,SIM1能将少量示范扩展为100倍规模的轨迹数据;纯仿真训练的零样本成功率达90%;泛化能力较真实数据基准提升50%;从零训练也能实现76%的成功率。同时,它还带来显著效率优势,成本降低27倍,训练速度提升6.8倍。这些成果表明,SIM1并非“打造更大的仿真数据集”,而是重新定义数据生产方式:数据不再依赖人工逐条采集,而是从少量种子出发,通过对齐现实自动扩展。
sim-to-real失败的根源
长期被忽视的关键在于,sim-to-real差距并非单点问题,而是几何、物理与运动三重错配的叠加。几何决定空间结构是否一致,物理影响交互响应是否可信,运动关乎轨迹是否符合真实操作的时序与节奏。三者缺一不可,任意一环未打通,训练出的策略就难以在真实世界有效执行,只能局限于仿真环境的理想表现。
SIM1的出发点是同时弥合这三重错配,将数据生成链路重构为闭环:从真实场景出发,复刻高保真仿真环境,在物理一致的前提下扩展大规模操作数据,最终回流至真实世界验证与部署。仿真不再是现实的近似,而是现实的可扩展表达。
SIM1的闭环流程:扫描、模拟、扩展
SIM1是一套完整的数据引擎,包含三个步骤:第一步“扫描”,通过亚毫米级扫描将真实柔体与场景重建为高精度数字孪生,不同于传统粗粒度建模,它力求保留真实环境的几何结构、褶皱纹理和精确空间关系,让仿真起点基于现实;第二步“模拟”,构建与真实交互对齐的物理系统,使机器人在仿真中的作用方式、布料响应及形变动力学贴近真实世界,将仿真系统校准为可靠的数据生成器;第三步“扩展”,引入生成式方法扩展操作数据,把抓取、提起、折叠、释放等基础操作作为可组合的动作词汇,由模型学习拼接、重组与延展,生成平滑多样的新轨迹,配合材质、光照和视角的随机变化,将少量演示扩展为数万条可执行数据。
核心突破:让仿真精准“认知”布料
若说SIM1的闭环解决了“数据来源”问题,Deformation-Stable Solver则攻克了“仿真在布料上易失真”的难题。布料操作的难点在于,真实世界的形变响应是全局、快速且强耦合的,局部拉伸会在极短时间内影响整个表面。传统仿真易出现延迟传播、粒子漂移、局部抖动甚至过拉伸伪影。SIM1的关键设计是将布料从“局部粒子系统”升级为“全局响应系统”,当局部拉伸超过阈值时,修正力在单步内传播至整个网格,保持形变的一致性与稳定性。这不仅让画面更稳定,更重要的是使仿真首次真正遵循布料物理规律,对于依赖形变与接触的操作任务,这种全局一致性直接决定仿真数据能否成为有效训练信号。
从手工采集到自动化数据工厂
当前机器人数据采集仍处于“手工业阶段”,操作员一次演示生成一条轨迹,成本高且难以覆盖丰富变化,任务复杂度提升后数据迅速稀缺、昂贵且不可扩展。SIM1的思路是将链路重构为自动化数据工厂:以约200条遥操作演示为起点,提取基础操作片段作为“动作模板”,通过生成模型组合、重排与扩展,生成新操作轨迹;同时在材质、光照与视角等方面引入系统性变化,拓展数据分布,最终将几十条演示扩展为数万条有执行意义的轨迹数据。这并非简单的数据放大,而是范式转变:从“人工采集”转向“组合生成”,从“有限覆盖”走向“可控扩展”。SIM1的价值在于,它是持续生成、可学习、可复用、可扩展训练信号的数据引擎,而非一次性产出样本的工具。
仿真数据能否替代真实数据?
SIM1给出的答案是:不仅可以,部分场景下甚至更优。相同数据规模下,SIM1训练的策略零样本成功率高,真实部署中执行稳定;在分布外场景(如空间、材质或光照变化)中,优势更明显。原因在于真实数据天然稀缺,仅能覆盖有限采样点;而仿真数据若足够对齐现实,可对任务分布进行更广泛、系统的覆盖。SIM1的价值不是替代真实数据的“少量精细”,而是补足其难以实现的“广泛覆盖”。更极端的验证是从零训练:仅用真实数据时策略几乎无法起步,仅用SIM1数据仍能学出有效策略并达到可观成功率,说明性能提升关键在于数据分布本身。
真实世界验证与项目意义
SIM1的最终目标是回到真实机器人验证。多任务、多场景的真机实验表明,基于SIM1训练的策略能稳定执行,在不同条件下保持强泛化能力,证明SIM1并非构造“更漂亮的仿真世界”,而是建立通向现实的训练路径。从宏观角度看,SIM1代表新的数据范式:仿真不再仅是现实的代理,而是现实数据的一部分;机器人不必等真实数据积累足够多,就能获得规模化能力。人类提供起点后,扩展、生成与学习可由系统自动完成。SIM1不仅是一种方法,更是宣言:当仿真真正成为现实本身,机器人数据的天花板将被重新定义。
项目上线后迅速引发关注,在X平台发布17小时浏览量突破20K,获245点赞,引发VBD作者Anka、Newton项目作者Eric Heiden、SoftMimicGen作者Masoud Moghani及NVIDIA GEAR、DeepMind、Stanford、CMU、Princeton等机构研究者的讨论与互动。

项目主页:https://internrobotics.github.io/sim1.github.io/
论文地址:https://huggingface.co/papers/2604.08544
本文来自微信公众号“量子位”,作者:非羊,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com






