中国的智力非常火爆,不再简单地跟随马斯克。

第一波具身智能在中国悄然落地,情况和技术路线与海外不同。
在山东某大型家电厂的生产线上,很多白色机械臂低头忙碌,焊点之间精准落下,高端洗衣机的金属骨架拼接成型。几个月前,工程师不得不手动调整这个过程几天。如今,八台智能机械手臂连接到“数字大脑”,新型洗衣机在四小时内完全适应。
“家用电器厂家接受度很高,这些手臂总共有几十万,确实提高了生产效率。。华龙迅达商品人士告诉数智一线。该系统的“大脑”来自华为云盘古多模式模型,负责任务拆解规划,而华龙迅达则基于开源模型独立开发小脑,负责具体操作。“生产线的信息稀缺。接下来,我们应该边跑边学,让它在实际生产中更聪明。”

焊接情景演示
这背后是一个具体智能对工业柔性制造的重构尝试。。在6月左右举行的两次会议——北京智源大会和华为开发者大会上,具体智能成为焦点。参与者看到的不再是重复单一运动的机器人,而是一个“新品类”,可以逐渐适应变化,做出决策,积极执行。。行业正迎来一次智能化的转变。
但是这次迁移,还远远没有到达终点。北京智源研究院院长王仲远表示,身体大模型仍然处于“GPT-3 以前“技术探索阶段”。「模拟数据,强化学习,大小脑结合等方向仍在摸索,尚未形成统一的方法论,产业落地还有许多关口要通过。」
银河通用创始人兼CTO王鹤说:“我们的行业不是一个悬浮的行业。“如果只讲故事,不落地,从长远来看会对行业造成很大的伤害。我们应该和行业一起做一些事情。”
01 中国制造业将迎来“具体智能”的转变
在许多制造和服务场景中,国内第一波产业已经悄然落地。它们的使用场景比特斯拉等海外巨头更加多样化,甚至更加复杂。
看看下面的视频,精密光纤的安装正在进行机械手臂。。
展示了华为云联合华为制造部的研发情况,手臂机器人正在完成手机“彩盒包装”的最后一道工序。目前,这个过程仍然依赖于人工操作。,试图通过具身智能来完成。

“彩盒里不仅有手机,还有说明书、耳机、充电器等等。因为生产线的进料是无序的,配件的摆放也不一样,每次都有不同的设备步骤。”华为云人士解释说,“他们将探索一个能够理解环境、规划行动、执行决策的系统。”
为什么“软”制造如此关键?“千寻智能创始人高阳给出了解释:”现在工业机器人的年出货量只有54万台,为什么这么少?由于它不好用,每一个机器人进入工厂后,都需要对机器人进行2~3个月的编程。。也就是说,机器人的“智能”是人工设置的。
类似的问题也发生在汽车行业。虽然冲压和喷涂车间高度自动化,但一旦更换车型,换线至少需要六个月的时间。华为云人士表示:“具体智能如果能根据车型自动调整生产参数,就像人一样软工作,周期会大大缩短。
因此,美的库卡机器人已经开始在机械臂的机柜中预留计算接口。,提前做好“具身智能”的准备。
具体智能不仅落地工业,而且进入生活场景。
“当你在某个平台下单药物时,很可能是我们的人形机器人在备货。”银河通用机器人创始人兼首席执行官王鹤展示了一段24小时机器人在药店运行的视频:机器人穿梭于货架区域和密集货架之间,独立提货,放入橱柜,然后快递员拿走。
“北京已经有7家正常运行,今年年底北上深将安排100家。”王鹤说,“24小时店三班倒,人工成本每年超过70万元,我们的机器人就是把成本降到比这更低的水平。”
在中东某七星级酒店的礼品店里,机器人充当接待员,吸引顾客前来购物。

通过一年多的工业调查,智源研究院院长王仲远发现,具身智能的目标并不一定取代现有的机械臂,重复枯燥的过程,如物流分拣、激光编码等。,每天十几个小时,人工疲劳值高,甚至存在安全隐患,是最适合智能的第一波切入点。。
身体智能也可能是中国制造出海的关键。。清华大学孙富春教授说:“其实大部分中国企业在美国和欧洲建厂都不赚钱,人工成本太高,原材料太贵。“唯一的办法就是把机器人带过去,通过云端远程控制,这是下一步智能化面临的重要问题。”
但是,真正的落地并不只是“亮相”那么简单:
“灵巧手的成本很高,带传感器可能要十几万元,但是使用寿命只有几千次。”一个从业者直言不讳。
人形机器人“稳步前进”也是一个挑战:中擎机器人创始人赵同阳展示了一个场景,让人形机器人从一栋楼的A点到B点,乘坐电梯和换层到另一栋楼。“理论上可以,但现实中没有一个人能真正做到。”
另外一个关键点是寿命。汽车的寿命在10到15年之间,而且现在机器人的平均寿命约为2年。。赵同阳说:“我们预计5年内可以达到10~15年的机械寿命。
安全标准也成为入厂门槛,比如电池必须符合工业级防火防爆标准,三元锂电池,蓄电池都不行。。
同时,另一个更基本的反思也在展开:对于具体智能的模型训练,我们采用了怎样的路径才能获得更强的泛化性??在海外,我们采用的方法有什么不同?这个路线图与底层技术的未来进化有关。
02 在GPT之后,机器人仍然缺乏一个真正的大脑。
在模型流行之前,机器人只能完成一件事——送餐、打螺丝或运输材料。他们就像训练有素的操作员,但他们只有一种“本能”。但是现在,业界正在努力打破这种局限性。
“在2022年之前,具体智能面临着单一的任务、单一的场景和单一的本身。”北京智源研究院多模态大模型中心主任吴尚航说。转折点出现在ChatGPT诞生的那一年,机器人开始拥有一个“更聪明的大脑”。
智能化热潮的本质是大模型与机器人技术的融合。。多模态大模型带来更强的泛化能力,推动机器人从“专业人才”向“通才”演变。但是“通才”并不容易做到。业内人士认为,智能驾驶的挑战远远超过智能驾驶。
例如,目前,?尚航,具体智能主要走三条技术路线:端到端的VLA模型(Vision-Language-Action)、大小脑结构,以及世界模型。

在这些模型中,VLA模型是最直观的,它接受了人类的语言和视觉输入,导出了行动指令,形成了一个快速闭环。“VLA很有希望,”银河通用机器人创始人王鹤认为。。”
但是,在清华大学孙富春教授看来,VLA还不够。
“李飞飞强调视觉功能,提出的空间智能是在三维空间中感知、推理和行为的能力。”然而,VLA缺乏能够判断物理属性并运用物理规律的元素。还缺少足够的控制轨迹。孙富春说:“这就是我们建立世界模型的原因。
所谓世界模型,就是一个全要素模型,空间智能只是世界模型向视觉空间的投射。。孙富春团队计划训练一组大模型,包括200万条轨迹和52TB信息量,目标是在各种工厂实现高度泛化的身体智能。他们的标杆对象是英伟达结构了120万条轨迹和32个TB信息量的世界模型。
第3种方式是“大脑” “小脑”方法,这是国内提出的形象说法。,大脑负责任务规划,小脑负责具体实施。优点是模块化、可解释性强,更容易落地。但也有门槛。“并不是所有的多模式大模型都能胜任大脑。”尚航说:“举例来说,GPT-4o做机器人大脑并不理想,因为缺乏长期规划和空间理解能力。。”
在小脑技术路线上,北京人形机器人创新中心唐剑博士认为,“卡点”主要有两种:一种是大脑如何准确规划各种任务,很难准确拆解和规划复杂任务的十步甚至几十步。另一个是拥有小脑的技能库。两者都需要有很强的泛化能力,因为千千有成千上万的任务。
高阳还对具体智能泛化进行了分类。他认为L3是一个非常重要的节点,因为它是一个完全独立的节点,也是一个在特定环境下相对困难的节点。

行业正在逐步取得进展。例如,在这次北京智源大会上,智源研究院发布具身大脑 RoboBrain 2.0跨自身合作框架 RoboOS 2.0。通过它,全球开发者可以在不适应过程的情况下,一键将大脑模型与同一个自己开发的不同机器人的小脑技能连接起来。RoboOS RoboBrain2.0 2.0已经完全开源。
北京人形机器人创新中心唐剑博士也透露,他们计划推出统一开发平台“慧思开物”,帮助开发者以一种方式开发所有机器人任务。该创新中心开发了天工机器人,该机器人在今年的机器人马拉松比赛中获得冠军。他们有一个小脑技能库,现在可以支持30多种技能,目标是支持超过100种。
一些业内人士认为,最终的“大脑”、“小脑”竞争将收敛到具有大型R&D能力的企业。,由于花费太多,这是基于多模态模型而成长的。
“未来5-10年,大脑和小脑融合的模型可能会完善,但不是今天。原因很简单,数据有限。”王仲远说,要真正实现跨本体的小脑模型,就必须在一轮又一轮的产业迭代中淘汰和收敛硬件。
03 没有好的数据,机器人学不会动手。
尽管大脑结构和技术路线正在迅速演变,但是所有的路线最终都无法避免一个共识:数据,这是具体智能最难啃的骨头。
千寻智能创始人高阳直言不讳地说:“我们面临的最大痛点是数据。它们提出了Scaling,具有智能的身体。 Law,引起业界的关注。
"大语言模型有Scaling Law。我们还研究了身体智能,收集了大约4万个现实世界轨迹,并进行了大约15000个现实机器人测试。”高阳说:“简而言之,结论是身体智能同样符合Scaling。 Law,每次采集10倍数据,机器人的错误率就会下降10倍左右。假如你想要将99%的成功率提高到99.9%,那就意味着你要多采集10倍的数据,而且成本也在指数级上升。
根据上面提到的Scaling Law,银河通用王鹤认为,如果VLA部署到车厂,一定要保证通过率在4个9以上。,因为车厂每停工一分钟就要扣1万元。如果保留真实数据,可能需要先将机器人量产到百万,雇佣数千万人采集数据。这是一条无法落地的路线。现实中一定要有大量的数据生成,直接做几个9,然后用真实的数据,目前还没有实现。“我们做零售,也是因为今天真的做不到四个九。”
高阳直言不讳地说,与大语言模型不同,数据可以直接使用,清洁相对简单。智能数据有几种方式:互联网视频和遥控(模仿人类动作本身)、模拟生成…但是身体智能需要深入物理世界收集和探索。。"我认为宏观路线是清晰的,但是具体到每个数据库,如何处理,如何做到最好,很多工程细节还不清楚。"
智能数据技术存在几个问题:现实世界中的数据难以大规模获取,成本高,精度不同。然而,现实中加强学习的样本效率“非常低”。虽然模拟器是一种替代方案,但由于难以完美还原现实环境,存在“差距”。
另一个数据困难的原因是硬件不统一。
“有这么多智能,每个机器人本体的自由度和传感器数量都不一样,数据根本不通用。。"众擎机器人创始人赵同阳提出了问题。他担心现在有些地方建的数据采集中心,“你采的我不能用,我采的你也不能用。”
“就像我们的电脑一样,每个人都可以使用Windows或iOS,因为它的硬件是统一的,有USB接口,有键盘和屏幕,屏幕的分辨率也是标准的。硬件统一后,其算法更容易统一,每个人都可以基于一套物品进行开发。”机器人硬件本体的收敛需要时间。
统一的“Action Space“(动作空间)可能是打破游戏的关键。北京大学计算机学院院长聘请副教授、创业公司北京智在无界卢宗青认为,大语言模型之所以能爆发,是因为统一的输入输出。机器人控制的维度多种多样。为了构建智能生态,首先要统一Action。 Space,只有这样才能有无穷无尽的数据。
王鹤团队在实际数据有限的背景下,也在尝试突破一条新路径:VLA(视觉-语言-动作)模型的纯生成数据训练。如今,国际上最主流的VLA训练方法是通过真机收集大量的遥控数据,比如特斯拉建立了遥控工厂,特斯拉机器人制作电池时,光电池采集了10万条数据,这条路径无人能及。
王鹤团队的模型参数是几十亿。通过生成训练,他们具备了零样本的泛化能力。比如机器人抓鸭子的视频,玩迪斯科灯,有人伸手抓玩具,机械臂也能实时响应。
他强调,这是世界上第一个端到端VLA模型,不依赖任何真实动作数据进行预训练。“生成信息是义务教育,真实数据是在职培训。。”如提供现实世界的动作数据,将使模型更加强大,而且遥操的数量是今天人形机器人所能支持的。
北京智源研究院走的路线也是让机器人学习互联网数据,然后通过少量真实世界数据来训练自己的能力。在北京智源研究院,数字智能前线看到了各种数据采集方式的技能,比如叠衣服,包括真人遥控操作和计算机上的生成数据。
在与机器人本体硬件公司沟通时,王仲远还提到,企业认为在降低成本的同时,要展示硬件机器人的上限。”假如每台机器人的价格不是几十万,而是几百块,那么数据收集量和模型提升速度将大大提高。。”
“智能‘预选赛’还没有结束,离‘淘汰赛’还很远。”王仲远说。然而,中国行业的行动非常迅速。在制造业的丰富场景和政策支持下,学术界和工业界的合作越来越紧密,提出了一些不同于海外的新路径。
据中擎机器人赵同阳介绍,今年他们的人形机器人可以出货2000到3000台左右。“我估计同行也会出两三千台。马斯克说,三年内,他们有30万台出货。我们在中国市场进行了调查,缺乏理论数据和能力的支持。我认为我们可以在过去的三年里实现3万台。”
本文来自微信微信官方账号 “数智前线”(ID:作者:赵艳秋,36氪经授权发布,szqx1991)。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




