三金,也是中国队,全球机器人视觉联合比赛揭幕。
ManiSkill-ViTac 2025视觉感觉结合争霸赛揭幕!全球42支队伍激烈交锋,中国队获得三金,刷新国际榜单。
十九日,ICRA全球顶级会议,机器人和自动化领域。 亚特兰大2025正式拉开帷幕。
不久前,机器人领域的顶级赛事——ManiSkill-ViTac 获奖团队名单也在2025公布。
5月23日,ManiSkill-ViTac ICRA将有2025的效果。 第六届ViTac国际研讨会2025集中报告。
据主办方统计,本次比赛吸引了来自清华、北京大学、香港大学、新加坡国立大学、穆罕默德·本·扎耶德人工智能大学等42支全球顶尖球队同台竞争。
最终获得三大跑道金牌的赢家,是国内两家家具创业公司。

其中,拿下「纯触感操控」和「设计触觉传感器」原力灵机Dexmal是两个跑道金牌。
这家黑马公司成立不久就获得了2亿天使轮融资。核心团队出身于老牌AI公司,忽视科技,拥有10多年AI原创产品规模落地经验。
拿下「视觉结合操作」石智航是赛道冠军,几乎与原力灵机同时宣布天使轮融资。凭借1.2亿美元的融资金额,它创造了中国智能行业最大的天使轮新纪录。
三大赛道,三枚金牌,不仅让大家感受到具体智能在细分领域有多大?「卷」,更加体现了中国在机器人操纵领域的国际领先实力。
机器人界「奥赛」,视觉感觉与大挑战相结合
具体智能和AI在人工智能版图中 1.0时代与当今炙手可热的LLM有着本质的区别。
AI 1.0专注于模式识别,大型模型擅长处理文本等多种信息。
具身智能则直面物理世界,追求让机器人像人一样感知、思考和与环境互动。
这种「身体与智能」融合不仅需要算法的突破,还需要硬件开发、场景适应和多模态感知的深度协同。
此外,就评价指标而言,与AI不同。 1.0时代产学研在CVPR的华山论剑;与OpenCompass、Eval等Benchmark上的百家争鸣不同,大型行业也是如此。
具体领域的标准比较稀缺和分散,而且有很多挑战。
它不仅需要模拟复杂的物理交互,开发高精度硬件,还需要验证真实场景中算法的鲁棒性,这使得相关游戏的门槛极高,玩家数量更少。
伴随着具体技术的日益成熟,竞争日益激烈,其细分领域的竞争热度也在升温。
目前,人们往往更加关注机器人的运动性能,如灵活的机械臂或灵巧的脚步。然而,在实际应用中,视觉触觉等多模态感知的结合对机器人的发展尤为重要。
ManiSkill基准测试应时而生,以促进机器人获得与人类相同的操作技能。
ManiSkill争霸赛自2022年首次在ICLR举行以来,已经成为智能领域的具体领域。「金字招牌」。并在2024年引入「视触感」结合专题(Vitac),为了弥补传统视觉主导方案的不足。

锻炼能力能使机器人能使机器人「动起来」,比如最近比较流行的擎天柱热舞视频,而多模态感知则赋予了它。「了解世界,了解环境」的智慧。
尤其在需要精细操作的场景中,视觉触觉协同效应决定了机器人的使用价值。
但是,在很多现实场景中,他们的表现仍然不尽如人意。
举例来说,机器人在抓取不规则物体,执行毫米级精度操作,或者处理柔性材料时,往往会因感知不足而失败。
Jim英伟达高级科学家 在红杉的闭门演讲中,Fan称之为“红杉”「物理学图灵测试」。在演讲过程中,他展示了一段机器人提供VIP早餐服务的翻车视频,引发了整个搞笑故事。

一种再普通不过的生活场景,为什么机器人会搞得一团糟?
因为,目前机器人领域的研究主要依靠视觉感知,通过摄像机捕捉环境信息,并做出决定。
但是,视觉主导方案在使用密集场景时有明显的局限性,如遮挡、光源变化、物体透明等,都会干扰视觉数据。
同时,那些缺乏触觉反馈的机器人,更难感知到接触、表面纹理或物体刚度等关键信息。
因此,在医疗手术、精密安装、复杂物流分拣等情况下,机器人很难达到人类的操作技能。
ManiSkill-结合挑战赛的诞生,ViTac视觉触感正好弥补了这种技术空白。

首页地址:https://ai-workshops.github.io/maniskill-vitac-challenge-2025/
它由清华、UCSD、伦敦国王学院等顶级机构联合主办,聚焦视觉融合技术,以扩大机器人在复杂操作任务中的能力边界。
不像之前的ManiSkill比赛,ManiSkill-ViTac是世界上第一个结合视觉和触感的联赛事件,它提供了一个触感物理模拟平台,并建立了一个现实世界的测试平台。
ManiSkill-ViTac 2025年的意义远远超过学术竞赛,它为机器人行业从实验室到实际应用提供了桥梁。
这样可以促进触感 - 随着视觉融合算法的进步,触觉传感器的设计得到了加快,为丰富接触的操作任务建立了标准。
中国队在42支全球参赛队伍中的表现特别出色。
以原力灵机为代表,不仅在算法研发上取得了突破,而且通过「算法 硬件 情景」推动技术快速落地的系统创新。
为什么中国队夺得三金?
原力灵机Dexmal团队在纯触感操作跑道(Track1)中面临着机器人操作的终极问题:
如何在完全没有视觉协助的情况下,仅凭触感就能完成高性能的操作?
据介绍,Track1要求机器人通过触觉传感器完成将轴插入毫米级孔的复杂任务。
它不但需要对轴体轮廓的各种特性进行精确的分析,而且要根据触摸反馈来构建精确的空间坐标系。
大多数传统方案依赖RL,但由于触感数据的低维和高噪音,成功率只有14.81%,而且由于接触失调,传感器经常受到过大的压力损坏。
所以,Dexmal团队提出了创新的建议「双范式学习框架」,巧妙地将专家知识与智能学习相结合。
第一,他们利用专家演示数据,对战略网络进行预训练,使机器人能够快速掌握空间探索的基本功。
随后,团队引入模仿学习生成动态奖励函数,为RL每一步的微观操作提供准确、实时的反馈指导。
这种层层递学的策略,就像是为机器人安装了双层递学策略。「无形的双眼」,使其在无视觉辅助的恶劣环境中,仍能准确定位孔眼位置。

这个方案的真实效果,令人震惊。
Dexmal混合算法在模拟测试中的通过率提高了2-3倍,远远超过了单一的强化学习计划。
更重要的是,在真实机器人验证阶段,Dexmal方案充分展示了其在纯触感跑道领域的强大竞争力,比分领先。
但是原力灵机Dexmal团队在触觉传感器设计跑道(Track3)中再次展现了技术前瞻性。
作为机器人的触觉传感器「触感」长期以来,关键硬件面临着成本高、制造复杂、性能不稳定等问题,行业仍处于探索初期。
从传感器结构到数据处理,Dexmal团队的核心目标是经济性和高效性,从传感器结构到数据处理。
第一,他们重新设计了传感器的几何形状,使其能够适应不均匀的应力分布,轻松满足不同的任务需要。
第二,团队对四面体网格进行了改进,力求在计算精度和实时性之间取得平衡。
最后,它们改善了标记点的分布,兼顾了空间分辨率和信号鲁棒性。

团队对传感器空间分辨率、计算效率和算法协同性进行了全面检测,以验证设计效果。
资料表明,新设计不仅显著提高了算法性能,而且有效地降低了成本。
这种「高性价比」方案,让Dexmal团队在赛场上一举夺冠,也许会为触觉传感器的大规模应用打开大门。
通向AGI,必须翻越高山。
不同于语音、文字等模式,触感信息是物理世界。「原生数据」。
它不仅对于具体智能尤为重要,而且是实现AGI的关键环节。
触感,能使机器人能感知物理纹理、力反馈、材料特性等,提供视觉上无法捕捉的信息。
这为机器人和现实世界之间的深度交互提供了可能性。另外,视觉可以支持对整个环境的理解。
两者的结合,不但能提高机器人对环境的感知鲁棒性,而且为跨场景、跨任务泛化能力奠定了基础。
清华大学助理研究员陈睿博士作为比赛主办方的代表表示:
多感知模式融合在机器人领域具有很大的实用价值。我们举办挑战赛的初衷是为行业提供一个推动视触结合技术发展的平台。
未来,我们还计划扩大任务的复杂性,例如将其纳入语言模式,以促进视觉-触觉-语言多模式的发展。我也希望越来越多的优秀团队能够参与其中。
与如火如荼的LLM相比,机器人直接作用于物理世界,是AGI必须翻越的高山,也是未来生产力问题的核心。
要提高机器人精细操作的能力,必须将触感视觉无缝结合。
不久前,老黄在一次采访中说,人形机器人将是一个价值50万亿美元的行业。目前,全球机器人市场正处于爆发前夕。

未来,它将为工业、医疗、物流等方面的智能化转型注入新的动能。
换言之,这个领域的技术突破和落地,将给全世界带来不可估量的价值。
在比赛中,中国队的出色表现显示了其在全球AI和机器人领域的领先地位。
获得双金的Dexmal团队表示,该团队最近还参加了CVPR。 协作智能Workshop2025核心赛事之一——RoboTwin,并且在第一轮模拟平台赛中获得并列第一。
现在,他们正在全力准备第二轮比赛,结果将于6月底公布。
这一持续的战绩,无疑为中国在具体智能领域的全球影响力增添了不少色彩。

ManiSkill-ViTac 2025年的正式结束,不仅是技术的巅峰对决,也是中国智能崛起的里程碑。
原力灵机及其石智航的耀眼表现,展现了中国团队在算法创新、硬件突破、场景落地等方面的全栈实力。
它们向世界证明了三枚金牌:中国不仅是AI赛道上的追赶者,也是领头羊。
参考资料
https://ai-workshops.github.io/maniskill-vitac-challenge-2025/#Award
本文来自微信微信官方账号“新智元”,作者:桃子 好困,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




