机器人专用芯片是伪命题?英特尔宋继强:市场规模有限,当前难实现盈利 让“天才少年”蜕变为“可靠工匠”,具身智能需跨越三道关键关卡
在英特尔研究院副总裁宋继强看来,具身智能若要真正走进工厂、融入家庭,必须跨越“可靠性”这道巨大的障碍——而实现这一目标的方法,是为机器人配备三套系统。
1月20日,英特尔研究院副总裁、英特尔中国研究院院长宋继强接受了包括凤凰网在内的多家媒体的采访。
“如今的具身智能机器人,就像一个‘天才儿童’:在理想环境下表现出色,但一旦遭遇意外情况,就可能变得手足无措。”宋继强这样描述当前行业面临的共同挑战。
在他身后的屏幕上,展示着一个三层架构的系统框图——这正是英特尔为应对上述挑战提出的“三重系统”解决方案。
随着ChatGPT引发的大模型浪潮逐渐延伸到物理世界,具身智能(Embodied AI)已成为全球科技竞争的下一个焦点领域。从特斯拉的Optimus到小鹏汽车推出的Iron,机器人正被赋予前所未有的理解和决策能力。

然而,从演示视频走向实际应用场景,一道关乎“可靠性”的鸿沟横在眼前。宋继强指出,当前基于视觉语言模型(VLA)的机器人,其动作生成的准确率“大约在百分之六七十左右”,幻觉、环境适应性差、长任务规划能力弱等问题仍未得到解决。
“如果我们希望它能在3年左右真正实现落地,并且不出现因安全问题导致的重大事故,就需要尽早建立相关框架,凝聚行业共识。”宋继强表示。
系统架构:为机器人装上“三重安全保障”
根据宋继强的阐述,一套可信赖的具身智能系统应由三个层次组成:主系统(Primary System)、安全系统(Safety System)和后备系统(Fallback System)。
主系统承载着机器人的“智能”功能,负责决策、规划和行动生成。英特尔大力推广的“神经符号AI”方法是其核心,旨在结合神经网络的泛化能力与符号逻辑的可靠性和可解释性。
“它既运用了神经网络的泛化能力,避免机器人局限于单一的场景和方案,又能融合传统基于符号、规则和知识的方法。”宋继强解释道,这相当于“提高机器人的下限”,确保其不会因幻觉等问题产生灾难性的后果。
但现实世界充满了意外情况。执行器故障、传感器错误、未知障碍物、地面打滑……这些都超出了主系统的认知范围。因此,需要引入更底层的保障机制。
安全系统是一个轻量、高可靠的监控层,持续对比机器人的执行状态与预设的安全规则(如“不得碰撞人类”“持有尖锐物体时需保持安全距离”),一旦发现偏离就立即发出告警或进行干预。
如果安全系统也无法处理,例如机器人即将摔倒,后备系统就会被激活。它的目标不是让机器人“紧急停止”,而是引导其进入一个可靠的降级状态。
“比如,机器人可以像汽车一样缓慢地靠边停靠;如果即将摔倒,可以选择无人区域,通过锁定部分关节来实现缓慢摔倒。”宋继强说。
这套“PMDF”框架(分别对应具身智能主控系统、监控系统、安全决策以及故障处理和恢复),已被写入英特尔联合多家合作伙伴发布的《具身机器人智能安全子系统白皮书》中。宋继强透露,白皮书发布后反响良好,不少学术界和业界单位都希望参与到推进工作中来。
专用芯片尚未到来,英特尔押注“传统优势领域”
当话题转向硬件时,凤凰网科技提出了一个问题:未来机器人领域是否会出现专用芯片?面对特斯拉、小鹏等车企自研芯片的趋势,英特尔的机会在哪里?
宋继强的回答坦诚且务实。他明确判断,目前机器人市场规模还比较小,专用芯片在经济上是不可行的。“核心原因在于机器人市场的规模目前还很小,对于芯片厂商来说,专门为机器人定制芯片很难实现盈利。”
当前行业普遍复用手机、汽车、PC等领域的成熟芯片,并进行改造适配。更深层次的原因在于,机器人的“工作负载”尚未定型。“我们无法确定,芯片是应该针对VLA的工作负载进行优化,还是为后续的世界模型工作负载提供支持。”
在这种情况下,通用芯片是更稳妥的选择。宋继强预计,只有当行业形成标准化的工作负载后,专用芯片(ASIC)才会出现,其研发周期可能在10到18个月之间。
那么,英特尔的机会在哪里呢?宋继强将答案指向了英特尔在工业控制领域长期被忽视的“隐形冠军”地位。

“在传统工业自动化领域,英特尔的市场地位可以用‘绝对优势’来形容……在工业场景的高精度、高频率运动控制领域,大部分工控产品和工控板都是基于英特尔的CPU开发的。”
他总结了三大优势:一是技术迁移,将工业运动控制的经验迁移到机器人的动作控制层;二是资源调度优化,确保运动控制等毫秒级任务不被其他任务干扰;三是多系统融合能力,实现隔离监控和快速安全响应。
对于当下备受关注的酷睿Ultra等集成AI算力的芯片,宋继强将其视为“稳定的硬件基础”。如果算力不足,可以额外配置AI算力卡。他预判,未来的主流部署模式将是“机器人终端+边缘服务器”,在低延迟的前提下,将大模型部署在边缘,形成跨网络的异构计算资源池。
现实瓶颈:数据孤岛、VLA幻觉与成本悬崖
尽管蓝图清晰,但通往可靠具身智能的道路上充满了困难。宋继强在回答多个问题时,描绘出了当前最主要的几大瓶颈。
首先面临的是VLA(视觉语言模型)的能力上限问题。宋继强直言,当前VLA的准确率仅在百分之六七十,存在明显的幻觉问题,而且对视觉环境变化敏感,泛化能力较弱。“它并没有真正理解场景的本质,不具备对场景中物体三维关系、因果关系的认知能力。”
这也是行业转而关注“世界模型”的原因——为其补充物理定律和因果关系认知。但世界模型自身也面临着与真实场景融合的挑战。
更深层次、更根本的挑战来自于数据。宋继强指出,数据问题是行业的核心痛点。具身智能需要场景理解、任务规划和机器人本体三类数据,但目前的现状是“数据孤岛”现象严重。
“不同行业场景、不同机器人本体、不同任务类型所需的数据差异很大。”他列举了建立统一数据标准的四个难点:数据完整性的定义不明确(是否需要触觉等数据);操作精度和频率没有统一要求;机器人本体没有公认的最优方案;数据采集视角尚未确定。
“因此,当前行业仍处于各自探索的阶段,短期内会保持‘百花齐放’的状态。”
最后一个关卡是量产与成本问题。宋继强提醒,目前展会上的机器人大多是“手工制作的原型机”,零部件未达到车规级或工业级标准,一致性较差。“机器人整体价格的下降也依赖于大厂的进入。”
他以特斯拉为例,指出行业看好特斯拉的核心原因之一就是其强大的量产能力。只有通过工业化量产降低硬件成本,同时使智能能力达到标准,机器人才有可能走向更广阔的商用乃至消费场景。
未来三年:从“展示天才”到“成为可靠工匠”
面对如此多的挑战,具身智能的落地时间表究竟是怎样的呢?宋继强给出了一个谨慎的预测。
“要将这些能力整合为一套可靠的解决方案,把VLA的准确率从目前的百分之六七十,提升到工业级应用要求的99%以上,预计还需要两三年的时间。”
他描绘了一条清晰的落地路径:
短期内(1-2年),在物流分拣、工厂搬运、标准件组装等半结构化场景实现小规模部署。这些场景用工成本高、环境相对可控,能够容忍机器人初期的高成本。
中期(3年左右),随着智能能力可靠性的提升、行业安全框架形成共识,在上述场景中扩大应用规模。
长期来看,则取决于量产一致性和成本控制的突破,需要大型车企等具备工业化生产能力的企业进入行业来推动。
“这一发展路径符合Gartner成长曲线的规律。”宋继强总结道,先以技术预期吸引投入,快速提升能力;然后在部署过程中解决问题,在早期场景中验证商业化;最终大厂进入,推动规模化发展。
在采访的最后,宋继强反复强调“融合”与“解耦”这一对看似矛盾的关键词。
融合,是新老技术的融合——将前沿的AI模型与经过验证的传统控制技术、安全工程相结合。解耦,是软硬件在能力层面的解耦——让上层的感知规划模块能够适配不同的机器人本体,降低开发成本。
“具身智能的发展不会依赖单一的技术突破,而是需要新老技术的叠加融合。”宋继强说。一项未经充分验证的新技术无法直接应用于关键任务,只有与成熟技术结合,才能形成完整可靠的解决方案。

这或许正是英特尔在这场具身智能竞赛中的独特定位:不做最激进的颠覆者,而是做最可靠的整合者。利用其在工业领域数十年积累的“隐性知识”,为快速发展的AI“天才少年”,配备上经过物理世界检验的“小脑”与“反射神经”。
当机器人离开聚光灯下的展示台,走进嘈杂、混乱、充满不确定性的真实世界时,决定其价值的将不再是它最惊艳的瞬间,而是它最不容易出错的下限。而这,正是一场关于“可靠”的漫长工程的开端。
本文来自微信公众号“凤凰网科技”,作者:于浩,编辑:董雨晴,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




