大模型冲击人形机器人跑道后,一个万亿美元的新故事36氪新风向

2024-06-28

作者|黄楠


编辑|袁斯来


一九七八年北京,WABOT-15机器人的形象在早稻田大学加藤一郎举行的座谈会上直播。


它是世界上第一个全尺寸的人类服务机器人。图片中,WABOT-慢慢抬起脚来。每迈一步需要45秒,只有10厘米的步幅,大约是成年人的六分之一,但仍然引起整个震惊。


四十五年后,位于合肥市蔚来汽车生产车间,WalkerWalker是一个优秀的人形机器人 S正式进入工厂现场培训。Walker s身高近1.7米,外观更贴近人类,配备41个伺服关节和多个感知系统。它对环境感知更加敏感,动作更加灵活,已经开始取代一些工人来完成工作。


多年来,国内人形机器人领域的技术经历了多次发展迭代,无数科技公司加入其中,推动人形机器人从缓慢静态行走、持续动态行走、高动态运动进入今天的工业化前夕。


据国际机器人协会预测,2021-2030年,全球人形机器人市场年化复合增长率将达到71%;到2030年,其产业规模可达万亿美元左右,其中我国人形机器人市场规模有望达到8700亿元。


长期以来,工业机器人以传统的合作臂形式存在,完成了生产线上的单点任务。人形机器人处于完全不同的场景中。


它可以进行门锁质量检查、灯罩、板材检查、安全带检查、车标等。,涵盖多个生产环节,同时可以与人类员工合作,完成汽车组装和质量检查。例如,特斯拉释放的擎天柱(Optimus)擎天柱可以在自己工厂工作的视频中反复取放电池,放入电池槽中,并且整齐地排列电池。


而且进入工厂只是第一步。在这个叙述中,“让人形机器人进入千家万户”是所有人共同追求的最终目标。


过去由于技术不成熟,机器人只能提供case by case服务,缺乏对复杂场景的思考能力,应用空间有限;同时,在自己的控制层中,人类动作僵硬,需要按照预设的算法运行,没有更智能、更灵活的操作技能。


直到2023年,大型机器人已经席卷行业,给人形机器人带来了智能的新转折,资本也随之涌入。


根据赛迪研究院的报告,2023年人形机器人领域共发生了22起投融资案例,其中宇树科技、银河通用、达达机器人、智源机器人、逐际动力等融资金额均超过1亿元;今年发生了7起投融资事件,最高金额是宇树近10亿元的B2轮融资。


智能描绘一个富有想象力的未来。大模型的支持无疑会大大提高机器人的认知和管理能力。然而,市场上对人形机器人的分析有两种截然相反的声音。


一种认为下半年会有公司率先到场,人形机器人取代人类的工作进程会加快;另一种认为,人形机器人的智能化还处于起步阶段,成本和效率问题还没有得到解决,更不用说形成清晰的商业模式了。


所以,36氪走访了几十位人形机器人从业者,希望通过这篇文章来回答以下问题:


1、与上一代技术路径相比,“新”的人形机器人公司的革命性体现在哪里?


2、从研究到产品化,硬件成本的关键是什么?有哪些挑战?


3、如何看待人形机器人要突破的场景?谈论商业化是否为时过早?


机器人行业大模型砸中机器人行业


从2010年开始,国内人形机器人技术路径可分为两个阶段,分界点是去年爆发的具体智能。


第一阶段的技术路径围绕具体任务,从单一情况出发。这些人形机器人大多是基于自身,通过改进当地算法和增加计算率来提高机器人能力。首先,在场景中预设任务的执行边界。客户下达指令后,收集当前数据进行练习。在限制范围内列出可以解决任务的多个算法,并尽可能覆盖更多的路径。


简单来说,当我们想让机器人倒咖啡的时候,我们会设计一个倒咖啡的模型,如果我们想让机器人在工厂拧螺丝,我们会设置一个拧螺丝的程序。


比如工业场景中的物流机器人,工程师会提前为特定园区设置运输线路,机器人只需要在固定路径上完成配送任务,灵活性低,但稳定性强;在多条路线的情况下,这些路线也可以通过算法提前规划。然而,一旦机器人离开地图设置的任务,它就不能运行。


因此,面对新的场景和任务,人形机器人需要重新收集数据进行训练、设置方案和测试,这导致了巨大的资源消耗。即使在生产中注入自动化特性,人们的劳动力释放也非常有限。


然而,在新一轮人形机器人浪潮中,以身体智能为代表的技术路径更加强调泛化,追求多场景适应。大模型可以解决各种任务,这种通用能力被引入人形机器人后,人们第一次看到机器人可能从单任务交付到大规模应用。


“一个具体的变化是,过去人们对机器人的要求是,他们只需要设置岗位,提前预编事项,然后执行。但是人形机器人不是。人们希望它不仅能成为一名熟练的螺丝工人,还能具备质量检验等其他工作能力。,并且能够灵活配置,最终取代工厂的员工完成繁重枯燥的工作,而不是取代现有的重型机械臂和输送带。”乐聚机器人副总裁柯真东告诉36氪。


情景能否多样化的决定性因素是泛化的大脑。这源于两个技能的提高:一是基于对自然语言的理解。嵌入大模型交互后,机器人可以理解语言,理解人类的需求,并将其分解成实例化指令,并发出任务,让机器人到达目的地。


二是学习能力。在非结构化环境中,大型模型和多维传感器可以在穿透mobile(移动)的阶段学习、识别和构建,、pick(抓取)、place(运输)三个基本能力之上,使人形机器人具有多场景工作的能力。


以银河通用多模态小脑大模型为例。工作人员在后台下单同样的药,这是意图;然后双臂轮机器人接到指令,将其分解成具体的运动步骤。模型会先识别药物,锁定其在货架上的位置,然后伸出右臂吸盘抓取,用左臂和两个手指夹放入篮筐中。


这一系列动作由感知模型和操作模型协同完成,整个过程没有人工参与。当药物放置位置错误、倒置在货架上时,机器人会掠过它们,直接抓取后排正确的药物。


“泛化的本质在于机器人mobilee,随意的场景,随意的物体,随意的情况。、pick、北京大学-银河通用具体智能联合实验室主任王鹤指出,place可以成功。


可见,在紧急情况下,理想状态下的人形机器人可以结合以往的经验进行学习和复制泛化。


在采访中,很多关注人形机器人轨道的投资者普遍认为,“如今,人形机器人公司的优势属于阶段性长板,最终需要建立自己的闭环。核心在于各种技术是否擅长与自己想做的场景相匹配,能否在场景中打通。”


人形机器人泛化在本体层中表现为下肢形态的选择。


人形机器人的上肢结构相对稳定。根据移动方式,下肢可以主要分为两种,即以底盘为重点的轮试和类似人类的脚式。


轮式机器人主要在平面和结构化的道路上运动,如导购机器人和酒店配送机器人。其优点是技术发展成熟,可以通过两个驱动方向盘和轮子来完成前进、后退和转弯。底盘重,可以支撑机身稳定性。


但其局限性也很明显,不能走在非结构化路面上,如楼梯、野外、狭窄通道、凹凸不平的地面等。,对复杂地形的适应性差,应用领域有限。


相比之下,人形双足机器人在空间中的应用更加通用,尾部控制的自由度也更高。面对复杂的场景,它可以通过及时调整双腿之间的重心来保持稳定,执行各种任务。这就对机器人的控制能力提出了更高的要求。机器人的腿在捕捉到环境信息后,应该适应不同的地形,并且可以重量。


以野外行走为例,足式机器人首先需要感知和了解周围的环境状况,无论是泥泞的土路、摇晃的石路、上下坡的地形等。这些信息通常是动态的。根据现场环境的变化,足式机器人会独立规划新的路线,调整行走姿势,控制运动。


但目前市场上还没有真正达到智能水平的人形双足机器人产品,轮式机器人已经成为现阶段很多公司商业化的首选。例如,1XEVE轮试模拟机器人和银河通用手臂 轮试仿生机器人,达达机器人Ginger系列人类服务云机器人,下肢是轮试或足式戴盟Sparky,可根据情况选择。 1人形机器人等。


“归根结底,双足人形机器人促进了整个驱动行业的发展,尤其是电机驱动行业。然而,人类的大部分工作场景都是在平面上完成的,如办公室、工厂、购物中心等。”达威机器人CEO黄晓庆告诉36Kr。“在匹配现阶段机器人智能水平的前提下,轮试已经可以覆盖很大一部分应用领域。”


人形机器人的本质是通用。在不同的场景和任务下,人类会从危险系数大、反复枯燥的工作中释放出来。“我们要做的是尊重能力发展的规律。在这个阶段,人形机器人可以完成尽可能多的任务。”王鹤说。


以银河通用轮式机器人Galbot为例。由于轮式机器人难以实现蹲下、伸高等垂直空间的移动,Galbot选择了人类上臂加轮试的形式,银河通用提出了伸缩身体,蹲下手臂可以触摸地面,完全站立可以触摸高达2.4米,并将其伸向机柜等内部结构。除了特殊的狭窄通道,它基本上可以实现与人类相同的活动和操作空间。


可以看出,具体智能增强了机器人对大脑任务的理解和逻辑判断,将人形机器人推向了一个新的水平。在硬件本身,双脚和轮试结构技术逐渐成熟。软硬件创新最终使得多场景泛化成为可能。


但是人形机器人毕竟要从Demo视频进入真实场景。当前最紧迫的问题是如何从实验室走向规模化。


硬件费用高,数据收集难度大。


人形机器人作为集AI技术、软件算法、运动控制、硬件结构于一体的移动终端,是目前公认的难度系数最高的商品。


与工业机器人和智能机器人相比,人类机器人的结构更加复杂。比如常见的工业机器人一般有2-10个关节,40多个人形机器人,近5000个零件,系统工程量巨大,在硬件组合、控制算法和核心零件选择上存在差异。


目前,为了使人形机器人真正进入场景并应用它,我们需要首先超过这些硬件的成本。比如特斯拉擎天柱,只有丝杠关节的总价高达16万元。


减速器、伺服系统和控制器是人形机器人核心部件中技术难度最高的,占成本的60-70%。


目前关节使用的伺服电机主要是从海外进口的,安川、松下、三菱等日系厂商占据了国内市场的近50%,价格昂贵。


在减速器方面,常见的方案分为行星减速器和谐波减速器,在结构、工作原理、应用领域和优缺点上有显著差异。


其中,行星减速器承载能力强,效率更高,成本更低,扭矩透明度更大,单极传动减速比更小,多用于精度等级相对较低的运动结构。


谐波减速器的优点是体积小、重量轻、传动精度高、单极传动比大。但缺点是随着使用时间的增加,柔轮容易疲劳损坏,承载能力和使用寿命低于行星减速器,成本相对较高。


目前行业内还没有公认的减速器方案。“根据减速器的性能和产品需求,考虑选择成本的行星,做轻量化的谐波选择,每个家庭都会做自己的事情。”黄晓庆告诉36Kr。


在其他硬件方面,控制器、传感器、电池系统等。用于人形机器人,在工业机器人和新能源汽车等领域具有重复性。通过对一些传统制造业的供应链资源进行再利用,国内硬件供应商具有较强的低成本、大规模量产能力,可以有效降低人形机器人的整机成本。


除了伺服电机等零部件,目前90%的人形机器人大型关节都是国产化的,95%以上的小型关节都是国产化的。人形机器人的成本开始下降。


五月十三日,宇树科技Unitree G1人类智能体在JD.COM上架,价格从9.9万元开始。比特斯拉擎天柱以4.6万元的价格低于2万美元(相当于14.5万元左右),率先在人形机器人领域打响价格战。


他说:“基于过去四足狗商品的经验,宇树的供应链能力提高了,在成本控制方面做得很好。Unitree 9.9万元的G1人形智能体价格也证明了其规模化生产能力,对其他人形机器人企业来说是一件好事。“某人关注AI。 FA高宇提到了机器人赛道。


即便如此,宇树人形机器人还没有达到市场对价格的预期。 根据36Kr的说法,与传统工业机器人集成关节相比,大多数下游客户对成本特别敏感,因为人形机器人还处于实用化初期。


钛虎机器人创始人易港告诉36Kr,“工业领域的客户对于可承受的价格,即使价格是5000元,也有愿意付费的客户。但是,大多数人形机器人客户只能接受1000-2000元的价格。”


人形机器人仍然陷入客户不买账、大规模生产难以降低边际成本的矛盾之中。


硬件行业的爆发一开始会依靠一些实力雄厚的冒险家来开始,但行业只能依靠规模量产来降低边际成本。


“为了稀释R&D、模具和其他加工成本,许多制造商愿意在早期低价合作,进行定制开发。但是,要有一条严肃的生产线,只有一两家自己的公司跑出去才有可能。” 柯真东说。


当然,这是新产业启动时必须走的道路。随着行业的成熟,政府政策的支持,民间资本和各种产业基金的大量爆炸性投资,将加速国内供应链的形成,具有竞争优势。中关村智友研究所北航机器人研究所声誉优势、院长王田苗预测,未来人形机器人成本至少会降低50%。


根据《2024年中国人形机器人行业分析报告》,人形机器人可以根据量产规模大致分为三个阶段:小批量生产1000台,降低20%-30%到10万美元左右;1万台降低50%到5万美元;大规模量产数十万到100万台,降低70%-80%到2-3万美元。


优必选副总裁、研究院执行院长焦继超告知36氪。目前,优必选真人工业版人形机器人Walker 大约有4-5万美元的成本。


另外,训练数据收集的难度,是人形机器人大规模落地面前的第二座高山。


特斯拉今年4月推出了Grok-1.5的多模式大模型。v,使用端到端高速大模型FSD(Full-Self Driving,全自动驾驶)推理,为了缓解自动驾驶边缘案例的在线迭代学习问题,将足够多的用户数据清理干净后喂模型。


特斯拉擎天柱可以在有限简单的场景中独立工作,其核心依靠数据驱动:收集大量优质数据,覆盖各种情况和物体,通过智能提炼泛化能力。


当前,人形机器人公司对数据的需求可以分为三类。


首先,通过数据了解世界规律。例如,空间中有两个分离的物体:桌子和杯子。把杯子从桌子上拿走,可以转移到另一张桌子上,也可能掉下来摔碎。通过大量的数据学习,机器人可以理解任务的意图。


第二,借助模拟数据学习逻辑判断和管理能力。机器人完成一项任务由一系列动作组成。过去没有数据可以学习,比如让机器人从货架上拿一瓶牛奶,从什么角度抓,纸壳包装罐装的力度等等。但是借助模拟环境,机器人可以掌握各种抓取方法。


第三,真实场景的应用数据。比如让机器人给iPhone手机充电,首先需要识别手机的充电口和各种数据线插头,通过Sim-to-real transfer掌握了方法(模拟环境转移到现实世界)之后,再通过Telele-operation完成(遥操作)方法。


三种类型的数据侧重点不同,会影响人形机器人的精度和通过率。例如,谷歌和特斯拉的计划主要采用真实世界数据采集,并不断优化Telele。-operation。VR得到特斯拉 Tele-operation系统可以从第一个角度控制人形机器人,观察它所看到的,移动它,当人的手臂摆动时,机器人也会随之移动。该系统被特斯拉应用于其碱性电池工厂。


“人形机器人最终落地的形式有很多种。要提前做好产业化布局,就意味着需要提前进入场景迭代,获取数据,不断迭代,以满足场景的实际需求。”星动时代创始人席悦对36氪说。


增加真实数据有利于提高机器人的智能水平。但是要跨越鸿沟,真实的数据需要提高多样性和质量,而不是简单的数量积累。


例如,碱电池厂的电池是一个固定的盒子,用于固定外包装。在物体位置和环境相对固定的前提下,通过训练获得的数据和Imitation Learning(模仿学习)没有太大区别,机器人智能也没有得到拓展和提高。


“在机器人领域,我们面临着大量未标注的异构行为大数据,使得语义与数据的准确对齐变得非常困难,包括语义歧义、模型幻觉的安全性、标准化测试平台和使用安全性的评价等。”王田苗在采访中向36Kr指出。


Tele-operation收集的真实数据占Tele-operation使用的20%,如工具使用、工厂零件分拣等;一般目标识别,如桌板凳、路面墙、人类和环境等,都是基于其它类型机器人积累的数据,可以直接用于人形机器人训练。此外,80%的数据是通过模拟环境生成的。


由于实际数据稀缺,采集难度大,成本高,模拟生成数据被许多人形机器人公司视为处理数据问题的最佳选择。


以达达机器人数字孪生计划为例。公司建立了一个实时同步、虚拟现实转换的数据采集系统。通过传感器,可以扫描和传输人的环境到云端,重建30Hz/秒,将机器人放置在双生环境中进行训练。简而言之,机器人被视为一个NPC,所有的任务都是一个游戏,人形机器人被AI驱动在“游戏”中运行。


“在这个时候,我们可以尽可能多地生成数据,我们可以随时构建我们需要的场景和数字孪生。当数据在时间线上拉长,以切片的形式存在时,突发问题就变成了静止问题。”黄晓庆说。


然而,生成数据的缺点是它不同于真实数据之间的数据分布,实时性不强。当它落地时,它将面临更高要求的精度问题。


对于这一点,王鹤说,“这件事的处理有一个例子。通过大规模模仿真强化学习,宇树四足狗的运动、跳跃和双脚行走都是实现的。这说明Sim2Real(从模拟到真实)虽然有gap,但是可以做得很work。”


对一个真正称得上智能的人形机器人来说,这三种数据并无优劣之分。但是 “目前市场上基本没有一家公司能在同一阶段同步做好几种数据。一般的做法是根据自己的技术优势,优先考虑自己擅长的方向。”光源资本董事总经理娄洋告诉36氪。


目前,人形机器人距离里程碑式的飞跃还很远。然而,今天的资本在技术领域没有耐心。如果他们想看到可预见的商业路径,没有人会为脆弱的愿景买单。


商业化倒计时


今年四月,亚马逊的媒体活动日新月异,Agility Robotics分享了人形机器人Digit在亚马逊仓库的工作画面。


这次“员工试用期”始于2023年10月,经过三个多月的实践,Digit已连续运行7.5小时,效率为75%,任务通过率为97%。


在此之后,公司正在考虑对Digit人形机器人进行物流托盘检测,亚马逊仓库拥有75万台物流机器人。根据5-8小时、20-30元/小时的人工作业,机器人连续运行5年即可返还。


据高盛测算,预计到2025年,少数实力雄厚的人形机器人公司将进入商业化试点,到2035年,其替代率将从5%提高10%到15%,出货量将增加4倍,达到140万台。


人形机器人表现出巨大的市场需求。但如上所述,目前行业存在技术、成本等问题,部分国内公司仍处于商品测试阶段,商业化进程仍处于起步阶段。


其中,核心锚点,就是公司能否找到自己擅长的使用场景。


对于所有的人形机器人企业来说,每个人都会谈到-找到PMF。 Product market fit(商品-市场匹配),即产品要能满足真正的需求,其中商品所创造的价值往往比产品本身的价格要贵。


可以看出,目前国内外人形机器人已经进入汽车生产线和物流仓库,可以完成一些基础工作。席悦认为,随着机器人运动功能的进一步提高,落地场景将逐步向服务业迈进,最终进入千家万户,从车间单一的基础劳动过渡到复杂的软任务。


王田苗认为,人形机器人的着陆将首先从商业场景切入,然后进入工业场景,最后进入消费模式。“实用化过程需要时间来产生和验证价值,因此基于场景的抛光和迭代变得尤为重要。”


“面对特定的场景,我们要解决的问题变成了‘如何提高机器人的鲁棒性’(即在异常和危险的情况下保持机器的稳定运行),使人形机器人的适应性和部署效率能够在真实的应用环境中有效落地。”焦继超说。


现在公司主要朝三个方向掘金:


第一种是专注于教育研究和开发者客户,用于人形机器人技术研究、产品二次开发、教育课程和竞赛的设立;这些订单可以在初始阶段给企业带来相对稳定的收益,维持造血能力。


二是B端客户,面向典型制造业、物流仓储业、商业区服务业;这些客户目前的需求主要是前期的案例示范应用,目的是为未来大规模引进人形机器人做准备。


三是所有人形机器人公司的最终目标,面向C端客户,真正实现机器人进入千家万户,为每一个家政服务。


娄洋指出,在以智能为核心的新一代人形机器人公司中, “目前大家对场景侧的选择和市场端的切入还没有达成共识。一些探索进展迅速,一些相对缓慢,但进步更快的公司选择的路径不一定代表这种情况的最佳解决方案。目前还没有明确的答案来确定场景落地的可行性和质量。”


以工业场景为例,存在着陆成本不确定、数据训练与实际应用转换不平衡等问题。工厂一般要求机器人以精准成本为导向,期望机器人每天完成固定任务,保证生产稳定。然而,提高人类机器人的智能水平需要更强的概括性和适应性。与生活场景相比,工业环境可以为机器人提供相对有限的反馈和学习机会。



就资本而言,为了验证技术的有效性,找到适应的场景已经非常迫切。 娄洋说:“特别是对那些一般估值超过20亿元的第一梯队公司来说。


这些公司的机器人首先要在一个特定的场景中做得和人一样好,甚至比人做得更好,包括承担更危险的工作,实现更高的精度,处理招聘问题,或者用于低成本的自动化任务。经过单一场景的验证,公司考虑将技术泛化到更广泛的使用场景中。


目前各家公司融资还有窗口期,绝对差距还没有拉开。很多投资者告诉36Kr,对于人形机器人公司来说,下一场比赛的焦点是多元化。 每个人都有Demo视频,情景的实际表现才是见真章。


毕竟市场上的钱是有限的。龙头企业可以聚集更多的资源,尝试和犯错的可能性更大,包括提高人才密度、购买好的技术团队和生产线。 对于尚未找到清晰落地场景的新团队来说,融资大门正在关闭。


在过去的10年里,AI给太多的行业带来了希望和失望。智能概念足够性感,但轮廓不清晰。即使是目前大家都期待的机器人,也未必是最人性化、最智能的形式。


“无论是机器人还是其他形式,在我们看来,我们都希望它能在短时间内取代人类做一些复杂而危险的工作,让人们活得更轻松;从长远来看,更智能的人形机器人也能为我们提供情感价值。这才是场景落地的真正价值。”焦继超说。


具体智能带来了颠覆性的生产力变化,但从进入行业到终极生活场景,行业需要时间。在这些新的技术路径、硬件开发、供应链建设、市场需求驱动的共同作用下,我们还有很多事情要做。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com