Figure Helix系统引入System 0的技术突破与行业意义

03-21 06:45

本文来自微信公众号：42号电波，作者：兰博，编辑：James

此前42号电波发布的Figure机器人相关文章引发热议，网友围绕Figure 03做家务是否真正自主展开讨论。鉴于遥操作机器人伪装自主的现象频发，观众对此类演示存在疑虑。本文将从技术层面解析Helix 02模型为Figure 03机器人带来的全新能力。

Figure发布的视频显示，机器人在客厅可完成擦桌、捡玩具、清理沙发、关电视等操作，还能像人一样将毛巾甩到肩上、把收纳箱夹在腋下。官方称这些新行为仅通过新增训练数据获得，未针对单个动作单独设计，核心在于年初发布的Helix 02模型——相比初代版本，其能力提升的关键是正式引入System 0系统层级。

为何要增设System 0

在原有Helix的System 2和System 1之下，System 0插入了以1 kHz运行的全身控制器，负责平衡、接触及全身协调。该层级通过超1000小时关节级人体运动数据，结合大规模仿真到现实的强化学习训练而成，约1000万参数的网络替代了超10万行手写C++控制代码。

有人认为这只是新增低级控制器，但System 0的加入实则重新划分了机器人系统边界。去年Figure初代Helix模型聚焦人形机器人上半身操作，今年Helix 02能让Figure 03在移动中完成精确操作，System 0是关键所在。

过去行业讨论VLA时，核心集中在机器人能否理解世界、能否按语言完成动作，却鲜少关注稳定移动操作的融入。尽管机器人在移动（走路、跑步、越障）和操作（抓取、放置、操作物体）两方面表现不错，但两者很少能同时实现。多数模型默认二者可拆分，即先走过去、停下、稳住、再操作、再移动，导致很多机器人演示动作分段，不够连贯。

然而真实世界并非如此，人在日常生活中很少完全停下再做动作，移动和操作往往耦合而非串行。Figure在Helix 02介绍中提到，移动操作一体化的难点不在于走路或操作本身，而在于两者无法清晰分解。

因此，System 0的出现将“机器人本体如何稳定移动操作”纳入学习系统，意味着Helix 02不只是想成为调用技能的智能体，更试图改写技能生成方式及身体控制本身。

用智能体与技能类比理解System 0

用当下热门的智能体概念类比，能更直观理解Helix 02的结构：最上层是智能体，负责决策，观察环境后判断下一步行动；中间是技能，如同“工种包”，如走路、伸手、抓取、放置；最下层是控制器，负责执行动作，让电机转动、身体移动。

传统结构中各层边界清晰，智能体不管具体抓取方式，技能不管身体稳定性，控制器不理解任务。但进入真实环境后，易出现各层单独看都没错，组合起来却不顺畅的情况，动作被强行分段。一旦环境变化，如物体位置偏移或地面不平，这种分段结构就易出问题。

Helix 02的变化可通过同样类比来看：System 2仍是智能体，负责理解任务和场景；System 1不再是离散技能库，更像连续技能生成器，不调用“走路”或“抓取”，而是持续生成全身动作；System 0可理解为身体反射或“肌肉记忆”。这三层与传统结构的关键区别在于，技能不再是系统中间枢纽，它处于最底层，作用是让执行过程稳定、自然且连续。

这些功能在传统系统中通常分散在各类控制逻辑和补偿模块，而在Helix 02中被统一为习得先验。System 0是所有动作成立的身体基础，正因如此，System 1才能放心生成连续动作，无需每一步都考虑是否会摔倒、接触是否会中断，这也是Helix 02能将原本需拆开的动作变为连续行为，让Figure 03机器人干活更流畅的原因。

深入解析：System 0实际改变了什么？

若仅认为System 0是“新增1 kHz控制层”，易低估其带来的变化。从关键技术点分析：

首先是训练数据形态。System 0使用超1000小时关节级人体运动数据，且这些数据已重新定位到机器人本体关节空间，学习的是人体运动时各关节的协调关系，而非简单走路姿势。

其次是模型角色与规模。Figure介绍System 0是约1000万参数的网络，输入全身关节状态和基座运动信息，输出1 kHz关节级执行器指令。该规模使其更接近高频、低延迟、强约束的运动先验网络，不负责理解环境或生成任务层面动作，专门解决高频闭环中如何将上层动作目标稳定转化为物理可执行行为的问题。

再者是训练方式。System 0完全在仿真中训练，使用超20万并行环境和大规模领域随机化，学习在各种扰动和接触条件下保持身体稳定，通过仿真穷举身体可能遇到的物理情况，让策略在这些分布上收敛。

还有与System 1的接口设计。System 1仍是Transformer，负责将感知和语义目标转化为全身动作，但输出的是关节目标位置，而非直接控制力。System 0接管“最后一跳”，在1 kHz频率下将这些目标转化为具体执行器指令，过程中持续修正误差、处理接触、维持平衡。

这种接口设计较为克制，Figure未将所有内容揉成端到端黑箱，而是按时间尺度分层：慢的部分负责理解，中的部分负责生成，快的部分负责稳定。从这个角度看，System 0改写的是从动作到物理执行链路的表达方式，用习得先验在高频闭环中统一处理相关问题，这也是Figure强调“10万行C++被替代”的原因——从显式规则转变为数据驱动的运动先验。

机器人技术路线的转向

System 0的加入让Helix 02模型具备强大移动操作能力，这也反映出今年机器人行业的一大重点：移动与操作的融合。在机器人需规模落地真实环境的背景下，去年行业中大量聚焦上半身操作的模式已难以满足应用需求。

这一过程类似智能驾驶的发展路径：产业早期比拼单个模块质量，后来越来越多能力被统一模型整合。与Google DeepMind RT-2擅长的语义理解和动作选择、英伟达GR00T强调的模型和数据体系不同，Helix 02更侧重机器人动作在现实世界中的连续可行性，即移动操作一体化。

不过，尽管Figure展示的厨房和客厅整理任务完成度较高，但目前尚未展示其机器人在陌生环境、强扰动、长时序失败恢复及跨家庭泛化等维度上，S0+S1+S2系统的真实鲁棒性，这是后续需验证的内容。

就目前而言，Helix 02将各类工具能力融合为连续策略，并新增高频次身体先验约束的路线，让机器人系统链路从“像素到动作”进一步延伸至“像素到扭矩”。未来，模型与身体的融合协同能力将成为机器人发展的重要主线。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

卤鹅哥林江：二十年创业路，一只卤鹅撬动的人生转机

140万支假烟难撼美宜佳？加盟模式下的隐忧与未来

初代美妆顶流回归，B站能否重拾美妆赛道失地？

有人造梦有人做连接，追觅的生态3.0之路：以技术底座定义边界

5元菜夹饼大赛火遍西安：音乐厅里的碳水狂欢，藏着老陕的烟火智慧