4.5亿美元融资背后：Rhoda AI以DVA技术挑战机器人主流架构

03-14 06:33

本文来源：微信公众号“42号电波”，作者兰博，编辑James，原标题《4.5亿美元融资背后：Rhoda AI用DVA挑战机器人主流架构》

沉寂18个月后，美国机器人企业Rhoda AI近期结束隐身状态，推出核心技术DVA（直接视频动作）模型，试图打破VLA（视觉-语言-动作）模型在行业内的主流地位。

与VLA模型相比，Rhoda AI的技术路径差异显著。DVA模型旨在让机器人直接从视频中学习世界的变化规律，再将这种预测能力转化为动作控制指令。

在VLA模型占据具身智能领域半壁江山的背景下，DVA堪称“反主流”路线，但资本的态度已给出明确信号。

伴随DVA模型发布，Rhoda AI宣布完成4.5亿美元（约合人民币32亿元）A轮融资，公司估值达17亿美元（约合人民币123亿元）。

单轮融资超30亿元的规模，即便在国内也仅有少数明星机器人企业能企及，这背后是资本对DVA技术路线的坚定押注。

这场技术路线之争的核心问题只有一个：何种方式才能让机器人真正走进现实生活？

数据：路线之争的导火索

要理解机器人行业为何有如此多复杂的技术路线，需先明确数据在其中的关键作用。

当前主流的VLA模型训练高度依赖机器人遥操作数据，这类数据包含视觉观察、机器人状态及人类操作动作。每条数据都需真实机器人、专业操作员和专用设备支持，数据成本极高。

更关键的是，VLA模型难以覆盖现实世界中的长尾场景。实验室环境下机器人任务成功率看似可观，但在真实应用场景中成功率会大幅波动。

出现这种差异的原因很简单：真实世界的变化远多于训练数据。在此背景下，行业开始探索机器人脱离大量人类标注数据完成任务的可能性。

Rhoda AI的DVA模型在数据处理上采取了截然不同的策略。

Rhoda AI先利用大规模互联网视频对模型进行预训练，让系统从海量视频中学习物体运动、接触关系及人类操作模式等基本物理规律。完成视频预训练后，再通过少量真实机器人数据微调，将对“世界如何变化”的理解映射到具体机器人动作控制中。

按照这一技术逻辑，DVA试图将机器人学习的大部分过程，从昂贵的机器人数据转移到规模更大的视频数据上。

毕竟，即便遥操作数据再丰富，在数十亿小时的网络视频数据面前也只是冰山一角，且网络视频数据成本更低。

DVA：将机器人控制转化为视频生成

Rhoda AI提出的DVA架构，核心思路是让机器人先“想象”未来，再决定动作。

初看之下，这与此前热议的“世界模型”似乎并无二致。但DVA的最大创新在于将“预测未来视频”直接转化为动作控制，整个系统分为两步：

预测未来视频：首先运用因果视频模型，根据当前视觉观察预测未来几帧画面。机器人会先设想“若采取此动作，世界会发生何种变化”。

视频转动作：预测完成后，通过逆动力学模型，根据预测的视频变化反推机器人应执行的动作。形成“观察-想象-行动-再观察”的闭环，每秒重复多次。关键在于，该模型仅需约10小时数据即可完成训练，且能跨任务复用。

为使视频预测真正实现机器人控制，Rhoda AI还提出两项关键支撑技术：

上下文摊销：传统视频模型通常逐帧预测未来，而Rhoda AI的方法是在多个时间点同时预测未来帧。这让模型能处理数百帧的长上下文视频，拥有更长视觉记忆，使机器人具备处理长程任务的能力。

蛙跳推理：由于视频生成需大量算力，Rhoda AI采用类似流水线的策略——机器人执行当前动作时，模型已在预测下一步视频。这种推理与执行并行的方式，可大幅降低延迟。

不依赖遥操数据规模

Rhoda AI在技术博客中展示了完整实验，以证明DVA在真实任务中的数据效率和任务控制能力。

其中颇具代表性的是拆箱任务：机器人需从箱子中取出物品并倒入另一容器，过程包含抓取、移动、倾倒等连续动作，对视觉理解和动作协调要求较高。

根据Rhoda AI披露的数据，该任务仅用约11小时机器人真机操作数据，模型即可稳定完成操作。

相比之下，传统依赖遥操作数据训练的机器人模型，往往需要数百小时甚至更长时间的数据才能达到类似水平。

这正是DVA路线反复强调的优势：通过互联网规模视频预训练，模型已提前掌握大量物体运动和物理变化的“运动先验”，因此在机器人场景中只需少量数据即可完成适配。

另一项接近工业环境的任务是容器拆解：机器人需识别容器结构，完成拆解和分类处理等步骤，属于典型的多阶段流程操作。

该任务使用的机器人真机数据约17小时，同样远低于传统机器人训练规模。更重要的是，这类任务存在明显时间依赖关系，步骤必须按正确顺序执行，否则流程会失败。

实验结果显示，DVA在这类任务中表现稳定，团队将其视为视频预测路线在长流程操作中的重要优势。

总体而言，Rhoda AI的核心观点清晰：将机器人控制转化为视频预测问题后，系统可借助互联网规模视频数据学习物理世界基本规律，从而大幅降低对昂贵机器人数据的依赖。

在此框架下，机器人并非直接学习“应执行何种动作”，而是先学习“世界接下来会发生什么变化”，再根据预测结果推导动作策略——这正是DVA架构与主流VLA路线的最大差异。

机器人的Transformer时刻是否到来？

整体来看，DVA架构确实新颖：通过将控制问题转化为视频生成，降低了对遥操数据的依赖，同时具备长上下文记忆和可解释性。

因此，DVA在数据效率和泛化能力上，让人联想到Transformer在自然语言处理领域引发的范式转移，它或许能为具身智能领域带来类似突破。

但问题并非如此简单，实时推理延迟是DVA模型目前面临的最大挑战。

尽管Rhoda AI提到用蛙跳推理降低延迟，但现实生活的复杂性决定了机器人所处环境多变，部分实时操作问题需要机器人瞬间反应。

若一个简单的“拿起杯子”动作都需机器人反应五六秒，其生活使用体验将大打折扣；更不用说做饭这类长程任务，若延迟过高，菜可能会糊掉。

另一个问题是算力。虽然DVA在数据成本上有所节省，但需在算力上代偿——大量视频生成所需的计算开销巨大，且当前全球算力稀缺，短期内算力成本下降并不现实。

因此，Rhoda AI的DVA模型能否真正改变行业，关键在于算力成本、实时推理适配落地等问题能否解决。

若这些问题得到解决，未来机器人学习世界的方式或许真会从“预测动作”转向“预测未来”，这可能正是具身智能的下一次范式转移。

参考链接：

https://www.rhoda.ai/research/direct-video-action

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

上海滩大佬的处世之道：不重称兄道弟，更重顺势而为

曾率先盈利的理想汽车，如今在行业竞争中陷入亏损困境

Gemini赋能谷歌地图迎重大升级：智能问答+沉浸式导航重塑出行体验

魅族手机战略转型：聚焦车机与AI，告别旧模式

具身数据独角兽崛起：上百家产业方争相合作

项目推荐

梯影传媒

AI云印侠

宾果智能