成立11年的AI公司宇泛投身具身智能战场,手握哪些王牌?
今年被誉为具身智能元年,这一领域如今已成为AI落地最为火热的战场。
近日,有着11年发展历史的知名视觉AI公司宇泛智能发布了两款具身智能产品,并且宣布“智能 + 硬件”全栈自研,全面拥抱具身智能时代。
乍看之下跨度较大,但在行业内看来,宇泛布局具身智能是顺理成章的事。
一方面,视觉能力已成为机器理解物理世界的核心入口,也是多模态智能的基础。以视觉为出身的团队,成为了具身智能领域的中坚力量。进军具身智能,是宇泛企业能力进化的必然方向。
另一方面,在“智能 + 硬件”这条道路上,宇泛拥有长期的软硬件一体研发经验。在视觉AI时代,当时各类设备端的计算性能无法支撑AI算法直接落地,而宇泛最早在行业内基于端侧芯片性能重构算法,降低了算法对硬件的消耗,实现了端到端性能优化。
这一整套从底层硬件适配到上层AI算法优化的软硬协同开发经验,让宇泛在视觉AI时代收获了红利,在此基础上快速实现了商业化落地和规模化交付。在具身智能时代,智能机器人的落地同样考验软硬协同能力,宇泛的过往经历无疑为此提供了助力。
宇泛智能董事长赵弘毅表示:“我们想清楚了具身智能该怎么做,决心利用过去十年的积累,在具身智能机器人领域迅速跻身行业头部。这一波AI浪潮,不仅要让机器人看得见、听得懂、会交流、能行动,更要让它们真正学会自主思考与决策。”
01 为何全面拥抱具身智能?
具身智能赛道迎来了一位新玩家。
几天前,视觉AI领域的知名企业宇泛智能召开了11周年庆暨合作伙伴大会。会上,宇泛除了发布新一代视觉AI硬件与Agent新品,还正式推出了两款具身智能产品——空间认知大模型Manas和四足机器狗,宣告这家有着11年发展历程的人工智能企业正式迈入具身智能时代。
空间认知大模型Manas今年7月已在宇泛智能的公众号上亮相,它是一个多模态语言模型(Multimodal Large Language Model,MLLM)。据宇泛提供的信息,Manas在业界流行的空间理解数据集VSI - Bench、SQA3D上的表现,相比业界同等规模模型,取得了SOTA成绩。
此次正式发布,外界发现Manas在宇泛的具身智能战略中的角色更加明确。未来,它将作为宇泛智能旗下具身智能硬件的大脑,扮演空间认知底座的角色,让智能硬件能够感知真实物理世界,具备自主决策能力。
新发布的四足机器狗,是宇泛智能推出的第一款具身智能机器人。据悉,它的机械结构、电机、运动控制平台及能力均由宇泛团队自研。
这两款产品的发布,也让宇泛智能在具身智能时代的战略浮出水面——延续“智能 + 硬件”基因,全栈自研大脑、小脑和本体,全面拥抱Physical AI。
宇泛选择在当下进入具身智能赛道,在业界看来并非突兀之举。
实际上,随着大语言模型技术的进步,广义上各类硬件的智能程度已经得到升级。机器视觉行业的头部企业如海康等,都在将多模态模型植入设备以提升硬件的智能水平。
在机器人领域,随着机器人与大模型技术的深度融合,多模态大模型能力不断发展,尤其是视觉能力带来了更强的泛化能力,机器人的“大脑”也在不断进化。原来的机器人只能完成单体、单一场景任务,现在有望发展成为具备更强泛化能力的“通才”。
业界有不少视觉AI领域的企业进入具身智能赛道,比如上个月底商汤在WAIC上就发布了具身智能大脑,布局具身智能赛道。
同时,视觉领域的研究者和从业者已成为具身智能领域的重要力量。清华大学孙富春教授今年6月在2025北京智源大会的演讲中提到,具身智能历来由两拨人在做,一拨是计算机视觉派,以视觉为中心,李飞飞是典型代表,另一拨是原来机器人领域的从业者。
赵弘毅在演讲中阐述了此次发布背后的战略考量,他强调多模态尤其是视觉能力对具身智能发展至关重要。

赵弘毅指出,宇泛智能当下投身具身智能赛道,既是有着11年技术积累的人工智能公司在产业变革前夜顺应大势的战略抉择,也是公司创始团队做机器人的初心在内外技术条件成熟后的回响。
他透露了宇泛创业历程中此前鲜为人知的细节。2014年,宇泛凭借家用机器人的Demo获得了第一笔天使轮投资,“我们最初的创业梦想就是做智能机器人。”
当时,机器人技术涵盖图像识别(感知)、语音交互(理解与对话)、运动控制(行动)三大技术难题。在技术条件和团队规模等现实因素的限制下,宇泛最终选择了最擅长的图像识别赛道来实现商业落地闭环。但这个团队始终没有放弃对智能机器人的梦想和初心。
随着这波大模型浪潮的兴起,人工智能正从AI 1.0向AI 2.0时代演进,具身智能领域已成为AI落地的主要战场之一。机器人在“能看、能听、能说、能动”的基础上,正朝着真正具备自主决策能力的方向进化。其中,视觉正成为机器人具备认知和决策能力的关键支撑。
“在所有感知方式中,视觉信息密度最高、通用性最强,是机器理解物理世界的核心入口,也是多模态智能的基础。在具身智能场景中,视觉不仅决定机器看到什么,还决定机器下一步做什么。”
在赵弘毅看来,这次发布更像是宇泛的战略进化。在AI 1.0时代,视觉是最明确的落地方向,而如今视觉有望成为更智能机器人的入口,加上创始团队始终怀揣着机器人梦想,一旦技术储备成熟,他们必然会迈出这一步。
02 拥抱Physical AI,宇泛做了什么
除了视觉基因,宇泛此次一口气推出两款具身智能产品,也显示了这家人工智能企业在多模态和智能硬件能力方面的技术储备。
以多模态能力为例,宇泛过去一年围绕如何让智能体具备空间理解能力,进行了诸多思考并取得了成果。
当下,在如何让机器人拥有更智能大脑的问题上,行业仍处于探索阶段,技术路线尚未确定,有行业人士认为存在端到端的VLA模型(Vision - Language - Action)、大小脑架构以及世界模型等多种路线。
尽管技术路线不同,但业界达成的共识是机器人需要具备多模态推理能力,这被视为AI能够像人类一样综合感知、理解和决策的关键。而多模态的视觉 - 语言模型又被认为是实现多模态推理的核心基础。因为它能将像素、3D结构、文字映射到同一高维向量空间,实现“跨模态对齐”。

自然语言是推理过程的显式中间层,既可供人类阅读,也可供下游策略网络调用。视觉语言模型在具身智能中扮演着连接感知、决策与人类指令的核心控制中枢角色。
但并非所有多模态模型都适合作为机器人的大脑。有行业人士指出,GPT - 4o作为机器人大脑并不理想,因为它缺乏长程规划和空间理解能力。这也是市面上许多多模态语言模型存在的问题。虽然它们在图像识别、语言理解等感知任务上表现出色,但在空间感知方面存在明显短板,比如在细粒度、局部、几何信息的感知上,不如传统纯视觉模型精准。
在具身智能场景中,机器人需要准确抓取物体。模型不仅要“看懂”图像的语义内容,还需要具备对三维空间的准确感知能力。比如物体的实际尺寸、相对方位、空间布局等几何信息,是机器人进行路径规划、物体操作、环境理解等复杂任务的基础。
宇泛智能CTO王涛介绍,这意味着机器人“大脑”必须将语言模型与空间感知能力深度融合,才能在真实世界中实现稳定的操作与交互。只有当语义理解与空间推理能力同时具备时,具身智能才有可能真正实现大规模应用。
今年7月亮相的Manas是一个经过具身智能场景强化的多模态语言模型(Multimodal Large Language Model,MLLM),其底座是一个开源大语言模型,宇泛团队还专门对其进行了空间理解层面的诱导训练和强化工作,它凝聚了宇泛技术团队在具身智能空间认知和多模态技术方面的多项成果。

首先,去年年底宇泛自研的多模态推理架构UUMM,参考了大语言模型的架构并使其适配具身智能场景,它接收人类的语言和视觉输入,输出行动指令,形成快速迭代优化的闭环。
在此基础上,今年3月,宇泛团队发布了HiMTok,这与宇泛VLA项目一脉相承,通过创新方法实现了大模型图像分割能力的内生式集成,在保持模型结构和参数规模基本不变的情况下,实现了图像理解、图像分割、目标检测等多任务的有机融合。这项工作推动大模型从单一文本输出向图像、机器人动作(Robot Action)等多模态升级迈进了一步。
之后,他们又基于强化学习技术提升了模型的多模态输出能力。
这一系列工作使得宇泛的MLLM模型Manas在目标计数、绝对/相对距离、物理尺寸、路径规划以及自我视角的空间关系等空间理解相关的Benchmark上表现出色。Manas的发布,意味着宇泛在具身智能大脑的能力储备已经成熟。
另一款发布的产品——自研四足机器狗,表明宇泛已经具备了机器人本体和小脑能力。“在各种机器人零部件产业链成熟的情况下,我们自研了电机和控制平台等核心部件,经过多次迭代,也遇到了不少困难,现在已经发展到第三代产品。”
宇泛产研团队透露,接下来他们将加速推进机器人的大脑和小脑融合工作。
03 延续“智能 + 硬件”基因,走全栈自研之路
全栈自研机器人的大脑、小脑和本体,对任何一家新进入的企业来说都是巨大的挑战。宇泛为何选择走全栈自研之路呢?
数智前线观察发现,这既与当下具身智能的产业现状有关,宇泛智能过往的企业基因和发展历程也强化了团队对“智能 + 硬件”路线的认知。
从产业现状来看,当下具身智能的各种技术路线尚未确定,各类硬件标准也未统一。有智能算法能力的厂商很难不考虑硬件本体因素,专注于机器人大脑的研发。
有行业人士指出,目前具身智能厂商众多,不同厂商的本体自由度、传感器数量不同,数据无法通用。这使得基于数据训练的算法难以在不同本体间迁移,也意味着当下厂商在算法研发时需要充分考虑与具身智能硬件的配合问题。
宇泛团队告诉数智前线,他们选择全栈自研路线,是为了更好地确保具身智能产品的质量、品控和效果。“大脑、小脑需要融合,这个双系统又需要与本体配合,如果采购外部团队的产品,在现阶段很难做到极致。”
另一方面,当下产业链相比前几年有了很大发展。国内雄厚的制造业基础,使得机器人相关的硬件零部件产业链十分成熟。除了核心的电机控制零部件自研外,其他都可以从产业链获得支持,这也为宇泛这样的创业公司走全栈自研路线奠定了基础。
同时,宇泛过往的基因,让他们坚定地在具身智能时代选择“智能 + 硬件”路线。
赵弘毅表示:“‘智能 + 硬件’是我们的既定路线,在AI1.0时代,基于‘智能 + 硬件’路线,我们成功将视觉AI技术深度应用于安防、工地、社区、酒店等特定场景,实现了技术的快速商业化和规模化交付。”

这背后离不开宇泛在软硬件协同方面的能力积累。赵弘毅透露,早期的摄像头硬件无法支持优秀算法的应用,因为端侧算力不足,当时许多做人脸识别的厂商还会专门在设备中添加加速棒来支持应用落地。
而宇泛则通过软硬件适配协同和算法创新来解决问题。他们基于硬件性能限制,采用类似量化交易领域“以整型压缩替代浮点、逐层逼近硬件极限”的方法,将模型算法从浮点计算改写为整形计算,并在算子层针对硬件进行深度适配和误差补偿,实现了端到端性能优化。
当下具身智能行业发展迅速,外界普遍认为该领域将面临激烈的竞争和洗牌。而宇泛此前在“智能 + 硬件”协同方面的积累,为他们参与未来的行业竞争储备了实力。
赵弘毅认为,在具身智能时代只做算法是行不通的。一方面,基础模型需要巨额资源投入,创业公司难以与国内外巨头竞争。更重要的是,根据AI 1.0时代的经验,在国内市场环境下,仅基于MLLM来发展机器人大脑,企业很难实现商业落地闭环。
这场竞争也考验着具身智能企业产品验证和量产落地的速度。外界发现,宇泛过去十一年在智能硬件领域的落地经验,以及在AI 1.0时代积累的丰富渠道、供应链、产品化、量产能力和全球销售体系,都有助于该公司更好地应对市场竞争。
“宇泛拥有过去十几年积累的经验、资源和人才,团队年轻且富有实战经验,既理解大模型的前沿机制,又懂得如何让它们在现实世界中高效运行。我们想清楚了具身智能该怎么做,才决定投身其中。”面向新征程,赵弘毅充满信心。
宇泛智能已经成立十一年,但从创始人到核心技术骨干都很年轻,数智前线了解到他们还在持续招募人才,全力拥抱具身智能新时代。
本文来自微信公众号 “数智前线”(ID:szqx1991),作者:徐鑫,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com



