GTC2026揭示机器人技术新趋势:减少显式中间层,提升响应效率

4分钟前

本文来自微信公众号:42号电波,作者:兰博,编辑:James



在GTC2026大会上,黄仁勋展示了迪士尼经典IP雪宝机器人的现场互动,其背后是英伟达面向机器人领域的全套技术更新,包括新版Isaac Platform、多模态基础模型以及强化仿真与现实耦合的训练框架。这些技术延续了英伟达的积累,且呈现出工程化新变化:机器人系统正减少对“显式中间层”的依赖,让感知直接参与动作生成,以提升响应速度。



传统VLA模型中,机器人接收感知信息后,需通过显式语言理解任务并拆解为动作序列,语言在此充当中间层。而新路径则弱化这类“显式表征”,让视觉输入、环境状态与任务条件直接进入策略模型,模型在隐空间推理后输出连续控制信号。类似变化也出现在世界模型领域,清华大学交叉信息研究院与Galaxea AI的论文《Fast-WAM:Do World Action Models Need Test-time Future Imagination?》针对“未来想象”这一中间结构提出疑问,探讨推理阶段中间步骤的必要性。



无论是VLA还是世界模型,传统“显式中间层”易导致延迟过高,影响机器人在真实场景的落地。两者指向同一底层变革:机器人系统正从分层显式推理结构,转向统一表示空间中的直接决策。





显式中间层成机器人“负担”



受大语言模型架构启发,近一两年的传统VLA模型多采用分层架构,流程为语言理解、语义解析、任务分解、规划及控制执行。该结构模块清晰、可解释性强,但实际部署中问题渐显:



  • 表示形式不一致:语言模型处理离散符号,规划模块操作结构化任务,控制系统依赖连续时间信号,跨层转换易积累误差。



  • 时间尺度不匹配:高层决策低频,控制执行需高频闭环响应,分层易引发延迟与不一致。



世界模型(WAM)也存在类似问题,其通过生成未来视频或状态序列辅助决策,本质是“先想象,再行动”,将决策显式展开为“预测、评估、选择”,增加了计算与接口成本。





机器人需更快速响应



GTC期间英伟达展示的技术更新,体现了从传统流水线向紧凑结构的演进,即从状态直接到神经策略再到机器人连续动作。VLA模型中,语言位置发生变化:逐渐退出实时控制回路,更多作为训练阶段的监督信号或高层约束,而非每步动作决策的输入;策略模型直接输出关节角速度或末端位姿等控制量,而非中间语义指令,内部完成多模块决策过程。



这种“收敛”也出现在WAM领域,Fast-WAM研究有所体现。传统WAM包含训练阶段学习视频或状态动态表示、推理阶段生成未来轨迹再选动作两部分;Fast-WAM则拆分验证,采用简化结构:保留训练阶段视频建模,推理阶段移除未来生成过程,直接从当前观测输出动作。实验表明,去掉推理时未来想象对性能影响小,去掉视频训练则性能显著下降,且Fast-WAM推理延迟降至约190毫秒,较需未来想象的方案提速约4倍。





中间层正在内化



结合GTC系统变化与Fast-WAM研究,可见机器人系统减少显式中间层、将其“内化”为模型隐式表示的趋势。语言和未来想象均为中间层,前者将复杂决策转化为可解释语义步骤,后者将决策展开为可预测轨迹。当前变化表现为:不再显式生成语言指令、不再显式预测未来轨迹,而是在统一表示空间直接完成决策。模型不再“先做人类可解释的推理”再执行动作,更接近控制系统“输入状态、输出动作”的自然形式,中间过程无需显式展开。



趋势背后的基础条件



“减少中间层”趋势并非单一模型设计结果,而是近一年多基础条件成熟的体现:



一是仿真与数据生成能力提升。基于NVIDIA Isaac Sim的大规模仿真,机器人可在虚拟环境生成稳定可控、带反馈的交互数据(含成功与失败标签),使策略模型不再完全依赖昂贵真实数据,实现从状态到动作的直接训练。Fast-WAM也依赖视频级行为数据训练,性能源于训练阶段学到的动态表示,而非推理阶段额外生成过程。



二是算力与模型结构进步。端到端策略或隐式决策模型需在统一表示空间同时处理感知与控制,对计算资源和模型稳定性要求高。AI发展带来的GPU与边缘计算平台性能提升,使这类模型能在实际系统运行;时序Transformer、扩散策略等结构引入控制问题,让模型在不显式展开中间步骤时学习稳定动作分布。



三是数据闭环方式改变。策略模型更多依赖交互数据(轨迹、奖励信号、环境反馈),通过“执行、反馈、再训练”循环优化,而非依赖人类提供结构化中间表示,进一步削弱了中间层作用。





从“理解优先”到“控制优先”



削弱中间层的技术路径让机器人任务执行更工程化,但也有代价:可解释性下降,分层系统能定位问题环节,端到端或隐式模型错误难拆解;调试方式改变,问题转向数据与训练过程(如奖励函数设计、仿真与现实差异、数据分布覆盖),缺乏直接诊断手段;显式中间层利于跨任务迁移,隐式表达更依赖训练分布,泛化能力存不确定性。因此,这类方法目前在仓储、制造等结构稳定场景表现更佳。



从系统设计看,这是机器人从“以理解为中心”向“以控制为中心”的转向。语言仍承担训练与交互角色,未来想象仍有价值,但不再是推理必要步骤。底层执行上,系统更依赖连续感知与动作的直接映射及反馈优化,是贴近控制本质的工程取舍。中间层未完全消失,而是从系统结构“压缩”进模型内部,以隐式形式影响行为生成。机器人领域(VLA、世界模型)正走与智能驾驶相似的路径:从规则符号、感知规划,到感知直接映射动作,“显式中间层”重要性下降。

本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com