“大模型机器人，具身智能将开启“智力时代”

08-15 09:38

从15世纪达芬奇绘制了世界上第一份人形机器人手稿，到波士顿动力、本田、特斯拉，Figure AI等公司相继推出人形机器人产品，机器人新品类不断衍生。人形机器人行业已经从萌芽的概念阶段进入产业化的早期阶段。

最近，科技巨头OpenAI、由重量级投资者支持的人工智能机器人创业公司，如微软、英伟达和电商巨头亚马逊创始人杰夫·贝佐斯。 AI，它的第二代人形机器人Figure正式揭开神秘面纱02。

这个机器人被称为“地球上最先进的AI硬件”，不仅意味着人工智能技术的另一个里程碑，也预示着以身体智能为核心的人形机器人向工业化和商业化的应用迈出了坚实的一步。

01 智能新品类超乎想象。

正如Figure名称所暗示的那样，这个可以称得上是目前最先进的人形机器人，是2023年推出的Figure。后续产品01。

今年3月，Figure 01发布的时候，就引起了市场的高度关注。那时，Figure 01能与人类进行全面对话，机器人的所有行为都是学习的，而非远程控制。

它的背后不仅有Figure引以为豪的端到端神经网络技术，还完全融入了OpenAI推出的多模态AI模型。科技界普遍将这个人形机器人视为“行走的ChatGPT”，具有模仿人类行为、深入学习和思考、与人类自然高效沟通等诸多强大能力。

Figure 在大脑中，OpenAI的GPT-4o多模态模型仍然集成在大脑中，与Figuree相比， 01使用GPT4，Figure 02将进一步提高机器人常识推理能力，使其能更好地理解和响应复杂指令，机载运算AI推理能力提高3倍。

与特斯拉的Optimus和波士顿动力的Atlas相比，Figure引以为豪的优势一直是OpenAI大模型的深度集成。这种集成在多模式推理和任务执行方面更加智能和适应，提高了其在视觉、听觉和语言交互方面的优势，使其能够执行复杂的端到端任务。适用于工业制造、仓库物流等混合任务场景，重点是轻载搬运和分拣转移。

在小脑中，Figure02继续使用RT-X机器人控制模型，类似于01产品，并使用模型预测控制器来决定步伐位置，保持稳定，并遵循所需机器人轨迹所需的力。结合姿势控制，完成机器人的基本运动。全身控制规则保证了机器人在执行动作时的安全性和平衡性，未来将继续优化和提高动作执行力。

就对话推理而言，Figure 02可以通过内置麦克风和扬声器与人类进行语音对话。这个核心功能依赖于定制的AI模型，通过与OpenAI的合作训练，可以理解、处理和回应人类的语音输入。机器人使用语音作为默认操作面板，这意味着用户可以像与人交谈一样自然地使用它。在没有传统按钮或屏幕界面的情况下，02互动。

归功于机载视觉语言模型（VLM），Figure 02可以通过摄像头“理解”周围环境。进行快速的语义理解和常识性的视觉推理，并给出智能判断。例如，对物体识别、对场景的理解，甚至对人类行为意图的洞察，显著提高了机器人在复杂现实世界中的适应性和互动性。

此外，Figure 02机载CPU/GPU的AI推理能力是上一代产品的3倍。这种巨大的改进使得它能够在不依赖外部资源的情况下，完全独立地执行现实世界中的AI任务。

实际上，Figure 02只是一种具体智能的载体形式。在ITF World 在2023年半导体会议上，英伟达创始人兼首席执行官黄仁勋直言，人工智能的下一波浪潮将是一个能够理解、推理和与物理世界互动的智能系统。AI和机器人的结合有很好的想象空间。

特斯拉首席执行官马斯克在最近举行的2024年特斯拉股东大会上表示，人形机器人将是特斯拉未来的主要长期价值来源。他还认为，以服务机器人为代表的产品有望成为AI的下一波浪潮，并将成为行业的主力军，其数量有望超过人类，预计将达到100亿到200亿台。特斯拉的目标是年产10亿台，占市场份额的10%以上。

1950年，图灵首次在他的一篇论文中提出了“具体智能”的概念，这是人工智能的重要支柱。它强调智能体与其物理环境紧密互动，通过人形机器人等智能实体实现感知、决策和行动。

这种组合使人工智能能够通过摄像头、传感器等了解环境，并通过机械臂、轮子等执行器作用于物理世界，从而学习、适应和完成物理空间中的指令任务。这是一个包括大多数人工智能技术在内的行业，可以算是AI的大成者。

就目前全球具身智能的发展而言，大致可分为三个派系：实用派、性能派、学术派。

实用主义——特斯拉，Agility 1XRobotic和1X 以Technologies为代表的实用主义者重视商业化落地的可能性，希望“让一部分人先用”。在设计初期，我们可以接受只在一些场景中取代少量劳动力，有明确的商业化目标，重点是快速降低成本，促进大规模生产。

2023年12月中旬，特斯拉发布了第二代人形机器人，提高了行走速度，可以完成拿鸡蛋等精细操作，给市场更多的信心，预计2024年试产，2025年量产，最终目标售价预计将低于每台2万美元。

以波士顿动力为代表的运动性能派，具有30年的与军方合作经验，重点探索当前人形机器人的运动潜力，我不太注意成本。Demo机已经有能力完成后空翻、跑酷等高难度动作，可能会在未来的战争中发挥一定的作用。然而，由于成本高，量产计划受到影响。Apptronik等公司在海底、太空等极端环境下有商品经验，与NASA有更多合作开发经验。第一个通用机器人Demo只有上半身，计划在2024年底前实现商业化。

学派——以李飞飞教授和谷歌队为代表的学派，对机器人变革的追求非常大，打造出“RobotGPT“底座模型，实现零样本或少样本学习，在更复杂甚至陌生的环境中完成任务，实现智能人形机器人的出现。

02 螺旋式上升和曲折前进

在长坡厚雪的跑道上，具身智能从来不缺拓疆者。早稻田大学WABOT-11，从简单的结构驱动到关节驱动，再到跑步、转弯、识别特定人群面部系统的高度集成，再到目前能够发挥自主决策功能的高动态运动阶段。、ASIMO本田、Atlass波士顿动力、Optimus特斯拉、“铁大”小米CyberOne、WalkerS等优必选代表作，不断突破技术界限。

总的来说，具身智能在其发展过程中仍然面临着许多挑战，这些挑战来自于其发展过程中的复杂性和不断变化的需求。

第一，要适应非结构化的真实环境。与传统AI系统的预设规则和模式驱动不同，具体智能必须在一个复杂且不可预测的非结构化环境中找到立足点。在这种环境下，AI系统需要更先进、更灵活的计算能力，以适应环境的不断变化和不确定性，因为数据稀缺和场景的多变性。这不仅是数据处理的问题，也是对AI系统感知和适应能力的综合考验。

第二，要发展更高层次的认知策略。在自然界中，生物通过视觉、听觉和触觉获得复杂的感知信息，并在大脑中有效地整合多模态信息。具体智能也需要模仿这种高效的多模态整合过程，以便更全面地理解和适应其环境。这包括但不限于对三维空间中物体的准确识别和定位，以及对环境变化和相互关系的动态捕捉。

另外，涌现式创新和突破的缺失影响着具体智能的进化水平。生物学人群可以表现出惊人的集体智慧，这主要是由于个人之间的协同效应。对于具体智能来说，一个重要的挑战是模仿这个群体智能系统。这意味着需要将智能分散到多个实体中，通过它们之间的合作实现更先进的认知和管理能力。

生物学人群的自组织和适应性特征允许他们根据环境变化和个体差异进行自我调整。具体智能需要开发相似的机制，实现分工合作和动态任务分配，从而更灵活地应对各种场景。

最后，具身智能在与真实环境互动并充分学习时，必然会收集和处理大量数据。这就引出了一个关键问题:如何在实时交互中保证这些数据的安全性和隐私性。保证数据安全和用户隐私是智能发展中不可忽视的重要方面。此外，在决策中，具体智能也应该考虑伦理和道德问题。

因此，未来的发展不仅需要技术创新，还需要在复杂情况下建立更完善、更全面的伦理指南，引导智能行为决策，确保其行为符合道德原则和社会价值观。

智力的发展不仅是一个技术创新的过程，也是对人们理解、社会道德和社会影响的思考。相关研究不仅会促进科技边界，还会深刻影响人类社会的方方面面。

03 离我们还有多远？

根据赛迪研究院发布的《2024中国人形机器人产业生态发展研究》，2023年，我国人形机器人产业进入爆发期，产业规模增长至39.1亿元，同比增长85.7%；预计2024年和2025年人形机器人产业将继续快速增长，2026年中国人形机器人产业规模将超过200亿元。

据高盛预测，2025-2035年全球人形机器人销量复合年均增长率可达94%，2035年全球人形机器人销量复合年均增长率可达94%，2035年市场规模将达到1540亿美元。

更加乐观的预测提出，随着生成式人工智能技术的爆发，人形机器人极有可能实现超出预期的增长，下一个万亿“蓝海”已经准备好了。

从场景来看，人形机器人的目标应用领域包括商业、医疗康复、制造、物流等。在中短期内，更多的制造商将服务场景纳入目标应用领域。从中长期来看，随着技术的提高和结构化场景的开放，商业、工业制造和物流领域可以获得更多的场景数据进行实践，实现局部场景的落地。

从发展趋势来看，人形机器人是一条颠覆性商品的赛道，目前还处于发展的投资期。接下来，随着商品、产业和政策的要求，人形机器人的商业化将会加速。

根据工业和信息化部发布的《人形机器人创新发展指导意见》，人形机器人有望成为继计算机、智能手机和新能源汽车之后的颠覆性商品。Markets and 到2027年，Markets预计全球人形机器人市场规模将达到173亿美元，复合增长率为63.5%，产业发展广阔。

另外，根据国际机器人协会的预测，2021-2030年，全球人形机器人市场复合增长率将达到71%。根据中国电子学会发布的数据，到2030年，中国人形机器人市场规模预计将达到8700亿元。

如此巨大的市场，自然吸引了巨头们纷纷下注。举例来说，谷歌依托其强大的AI研究团队，丰富的多领域研究成果，推动了近几年机器人模型的发展。这个问题主要集中在一起，Google 在此之前，DeepMind发布了“自我完善”的能力RoboCat“VLA模型Robotic，融合了大语言模型的能力。 Transformer 2（RT-2）。

RT-2在训练过程中，模型同时学习视觉、语言、机器人行为三个数据，并将这些知识转化为机器人控制的通用指令。RT-一方面可以吸收视觉语言模型的语义推理、问题解决和视觉解释能力，另一方面可以从真实的机器人动作中获得具体的任务推理，两者可以相互促进。

自然语言输入后，动作输出可以通过模型计算直接产生，这样人类就可以通过纯语言指令提高机器人的控制力，进一步加快机器人的智能化进程。

此外，Meta还推出了MT-ACT模型，它可以在少量训练数据的前提下获得优异的性能。微软推出了基于ChatGPT的机器人控制框架，在现实场景中实现了ChatGPT的“知识积累”。可以说，人形机器人模型的发展是百家争鸣，取得了巨大的成就。

在中国，小米、傅利叶、宇树、智源、开普勒、追求等厂商纷纷推出人形机器人产品。随着科技企业R&D进程的推进，金融市场不断增加。

这些进入者都很清楚，软硬结合可以创造出人形机器人的新高度。软件决定了人形机器人的高度，算法需要与硬件相匹配。人形机器人的本质是人工智能技术在物理世界的最佳媒介，算法是核心，需要与硬件相匹配。

人形机器人商业化作为软硬件能力高度集成的实体，其核心突破点在于“AI大脑”。AI模型的快速发展给人类机器人的发展带来了无限的可能性——使人类机器人具有更强的处理事物和自然语言交互能力。

从发展趋势来看，人形机器人还处于工业化初期，但在AI技术突破、政策加码、科技企业强势进入的三大要素催化下，有望尽快迎来发展拐点。

智商革命已经开始，就像工业革命解放生产力一样，电力革命处理能源流通是一个全新的生态建设。未来嵌入智能机器人、无人驾驶汽车、自动机械等。，不仅是人类智能的延伸，也是一个诞生和发展普通人工智能的舞台，为超越人类智能水平的人工智能提供了理想的实验场和发展空间。

它表明，一个更智能、更互联的未来正在向我们走来。

本文来自微信微信官方账号“科技云报道”（ID：ITCloud-BD），作者：科技云报道，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

八月十二日，融资余额为14021.85亿元，较上一个交易日下降12.7亿元。

八月十三日证券之星早间消息汇总：李继尊任深交所总经理

西宁交警查获逾期未换证、超员交通违法行为。

“种子科教援藏”项目取得硕果！刷新西藏在全国青少年科技创新大赛中的战绩→

孩子的嘴被刀割伤了，普陀警察开辟了绿色通道，紧急送往医院。

项目推荐

康小虎 · 健康小屋

蓝丝带

毛加健康