柔体操作数据稀缺、仿真易失真？新研究实现布料物理真实模拟，纯仿真训练策略可零样本迁移至真机

04-16 06:39

近年来，研究者们持续尝试借助仿真环境批量生成具身训练数据。然而，仿真与真实环境存在差异，复杂场景下仿真难以产出高质量数据。上海AI Lab的最新研究，成功实现布料等复杂物品物理性质的真实再现，让相关复杂条件下的仿真数据达到可用水平，使仿真不再仅是“近似现实”的工具，而是成为现实数据生成与策略学习的新入口。

具身智能发展迅速，但瓶颈日益明显：并非模型不够大，而是高质量、可执行、可泛化的数据匮乏。柔体操作更是数据稀缺的重灾区，其状态空间庞大，涉及形变、接触和拓扑变化，依赖复杂物理过程；人工遥操作效率低、成本高，导致真实数据始终“够用却不足够多”。在此背景下，SIM1聚焦的核心问题并非“能否生成更多仿真数据”，而是“数据需先准确，数据扩增的价值才能真正体现”。

仿真曾被视为解决机器人数据稀缺的有效方案，期望用“海量仿真数据”填补真实世界的数据缺口。但很快问题显现：这些仿真数据看似数量庞大，却未与真实场景对齐，仅能用于预训练，难以直接部署；进入真实机器人场景后，仍需依赖后训练和真实数据修正。这引发了对“仿真数据极限是否仅止于此”的质疑。SIM1提出，或许此前大家过度追求“更多”，却忽略了关键前提——数据首先要准确，规模效应才能显现。

SIM1构建了real-to-sim-to-real的新范式：从少量真实示范出发，生成可直接在真实物理世界执行的仿真数据，最终转化为可部署、可扩展、可零样本迁移的策略能力。这意味着机器人领域首次有机会探讨专属的规模法则——智能增长不必再与真实世界数据采集同步。

SIM1的实际成果

结果显示，SIM1能将少量示范扩展为100倍规模的轨迹数据；纯仿真训练的零样本成功率达90%；泛化能力较真实数据基准提升50%；从零训练也能实现76%的成功率。同时，它还带来显著效率优势，成本降低27倍，训练速度提升6.8倍。这些成果表明，SIM1并非“打造更大的仿真数据集”，而是重新定义数据生产方式：数据不再依赖人工逐条采集，而是从少量种子出发，通过对齐现实自动扩展。

sim-to-real失败的根源

长期被忽视的关键在于，sim-to-real差距并非单点问题，而是几何、物理与运动三重错配的叠加。几何决定空间结构是否一致，物理影响交互响应是否可信，运动关乎轨迹是否符合真实操作的时序与节奏。三者缺一不可，任意一环未打通，训练出的策略就难以在真实世界有效执行，只能局限于仿真环境的理想表现。

SIM1的出发点是同时弥合这三重错配，将数据生成链路重构为闭环：从真实场景出发，复刻高保真仿真环境，在物理一致的前提下扩展大规模操作数据，最终回流至真实世界验证与部署。仿真不再是现实的近似，而是现实的可扩展表达。

SIM1的闭环流程：扫描、模拟、扩展

SIM1是一套完整的数据引擎，包含三个步骤：第一步“扫描”，通过亚毫米级扫描将真实柔体与场景重建为高精度数字孪生，不同于传统粗粒度建模，它力求保留真实环境的几何结构、褶皱纹理和精确空间关系，让仿真起点基于现实；第二步“模拟”，构建与真实交互对齐的物理系统，使机器人在仿真中的作用方式、布料响应及形变动力学贴近真实世界，将仿真系统校准为可靠的数据生成器；第三步“扩展”，引入生成式方法扩展操作数据，把抓取、提起、折叠、释放等基础操作作为可组合的动作词汇，由模型学习拼接、重组与延展，生成平滑多样的新轨迹，配合材质、光照和视角的随机变化，将少量演示扩展为数万条可执行数据。

核心突破：让仿真精准“认知”布料

若说SIM1的闭环解决了“数据来源”问题，Deformation-Stable Solver则攻克了“仿真在布料上易失真”的难题。布料操作的难点在于，真实世界的形变响应是全局、快速且强耦合的，局部拉伸会在极短时间内影响整个表面。传统仿真易出现延迟传播、粒子漂移、局部抖动甚至过拉伸伪影。SIM1的关键设计是将布料从“局部粒子系统”升级为“全局响应系统”，当局部拉伸超过阈值时，修正力在单步内传播至整个网格，保持形变的一致性与稳定性。这不仅让画面更稳定，更重要的是使仿真首次真正遵循布料物理规律，对于依赖形变与接触的操作任务，这种全局一致性直接决定仿真数据能否成为有效训练信号。

从手工采集到自动化数据工厂

当前机器人数据采集仍处于“手工业阶段”，操作员一次演示生成一条轨迹，成本高且难以覆盖丰富变化，任务复杂度提升后数据迅速稀缺、昂贵且不可扩展。SIM1的思路是将链路重构为自动化数据工厂：以约200条遥操作演示为起点，提取基础操作片段作为“动作模板”，通过生成模型组合、重排与扩展，生成新操作轨迹；同时在材质、光照与视角等方面引入系统性变化，拓展数据分布，最终将几十条演示扩展为数万条有执行意义的轨迹数据。这并非简单的数据放大，而是范式转变：从“人工采集”转向“组合生成”，从“有限覆盖”走向“可控扩展”。SIM1的价值在于，它是持续生成、可学习、可复用、可扩展训练信号的数据引擎，而非一次性产出样本的工具。

仿真数据能否替代真实数据？

SIM1给出的答案是：不仅可以，部分场景下甚至更优。相同数据规模下，SIM1训练的策略零样本成功率高，真实部署中执行稳定；在分布外场景（如空间、材质或光照变化）中，优势更明显。原因在于真实数据天然稀缺，仅能覆盖有限采样点；而仿真数据若足够对齐现实，可对任务分布进行更广泛、系统的覆盖。SIM1的价值不是替代真实数据的“少量精细”，而是补足其难以实现的“广泛覆盖”。更极端的验证是从零训练：仅用真实数据时策略几乎无法起步，仅用SIM1数据仍能学出有效策略并达到可观成功率，说明性能提升关键在于数据分布本身。

真实世界验证与项目意义

SIM1的最终目标是回到真实机器人验证。多任务、多场景的真机实验表明，基于SIM1训练的策略能稳定执行，在不同条件下保持强泛化能力，证明SIM1并非构造“更漂亮的仿真世界”，而是建立通向现实的训练路径。从宏观角度看，SIM1代表新的数据范式：仿真不再仅是现实的代理，而是现实数据的一部分；机器人不必等真实数据积累足够多，就能获得规模化能力。人类提供起点后，扩展、生成与学习可由系统自动完成。SIM1不仅是一种方法，更是宣言：当仿真真正成为现实本身，机器人数据的天花板将被重新定义。

项目上线后迅速引发关注，在X平台发布17小时浏览量突破20K，获245点赞，引发VBD作者Anka、Newton项目作者Eric Heiden、SoftMimicGen作者Masoud Moghani及NVIDIA GEAR、DeepMind、Stanford、CMU、Princeton等机构研究者的讨论与互动。

项目主页：https://internrobotics.github.io/sim1.github.io/

论文地址：https://huggingface.co/papers/2604.08544

本文来自微信公众号“量子位”，作者：非羊，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

银泰百货首次进驻江苏扬州项目4月30日启幕

黄仁勋开源全球首个量子AI模型家族 NVIDIA Ising：AI将成量子计算机操作系统

从现代医学视角看三国三兄弟：刘备、关羽、张飞的潜在健康问题

“医药女神”清仓引争议：个人盈利与基民巨亏的反差

医学营养餐食服务商「全和膳」开启A轮融资重塑国人健康膳食新生态

项目推荐

迪瓜租机

康老板 · 氧疗堂