声网携“陆卡卡”亮相AWE:从“能听会说”迈向“能看会动”的智能新跨越

1小时前

3月12日,以“AI科技、慧享未来”为主题的2026年中国家电及消费电子博览会(AWE 2026)于上海新国际博览中心拉开帷幕。杨浦企业声网此次带来两项全新成果参展:对话式AI开发套件R2系列产品,以及“泛IPC(网络摄像机)实时交互+智能处理引擎”。同时,数十款搭载其技术的智能硬件同步展示,直观呈现了实时音视频技术(RTC)如何让机器与人的互动更趋自然。


一年三次迭代 开发套件新增视觉与运动能力


在声网展台,一款名为“陆卡卡”的桌面机器人格外吸睛。当人走近时,它会转动头部“注视”来人;若指向某个方向,它能循声望向目标位置。这种“被看见”“被注视”的交互体验,让机器不再是被动应答的工具,更像有生命感的陪伴者。


支撑这一体验的是声网最新发布的R2全场景AI机器人开发套件原型机。相较于一年前的R1套件,R2的核心升级在于新增本地视觉识别与多自由度运动控制能力——搭载R2的硬件不仅能听懂语音,还可识别手势、追踪人脸轨迹,并做出对应动作。


据悉,声网去年3月首次推出对话式AI开发套件R1,重点解决实时对话中的背景降噪与智能打断问题,让用户与机器聊天无需频繁使用“小X小X”类唤醒词,交互体验更接近人际对话。该套件自发布以来出货量已达百万级,广泛应用于AI玩具、陪伴机器人等产品。去年9月,针对移动化需求,声网联合芯片企业推出支持4G通信的版本,使AI硬件能随时随地在线,满足车载等场景需求。


从R1到R2,一年内完成三次迭代,声网为硬件厂商提供了从“能听会说”升级至“能看会动”的完整技术方案。业内人士指出,运动控制与端侧视觉能力的加入,将推动具身智能机器人成为未来重要发展方向。


开源底层技术 吸引芯片厂商共建生态


今年初,声网宣布将核心硬件抽象层项目AOSL在GitHub全面开源。简单而言,AOSL如同通用“翻译器”,可让不同操作系统与芯片顺畅运行声网的实时互动技术。对芯片厂商来说,接入AOSL意味着其硬件出厂即具备“声网级”实时互动能力。


本次AWE上,声网首次展示了开源生态的最新成果。这种“开源底座+商业套件”的模式,正吸引越来越多芯片厂商加入,使硬件创新从“一次性定制”转向更高效的生态协作。


助力设备出海 实现全球秒见图与弱网稳定连


除对话式AI套件外,声网还发布了面向摄像头、扫地机器人、3D打印机、宠物喂食器等设备的“泛IPC实时交互+智能处理引擎”。


随着中国智能设备加速出海,用户对产品的要求日益提高:在网络条件不佳的地区,能秒速打开家庭监控画面;扫地机器人进入庭院角落、割草机穿行花园边缘时,仍能保持连接不“失联乱撞”;宠物出现异常时可第一时间收到提醒……


声网的解决方案集成四项核心能力:依托自研全球实时网络,覆盖200多个国家和地区,建联成功率超99.9%,首次画面打开时间达毫秒级,实现“秒见图”;极端弱网环境下,即使音视频数据丢失80%,仍能保障画面流畅与指令实时响应;传输过程中同步完成宠物检测、人脸识别等AI分析,结果实时推送至用户端;支持多人同时观看交互,并符合全球多地数据安全法规。


回顾十年发展,无论是手机APP还是智能硬件,产品形态虽不断变化,但人们用自然语言与机器交流的需求始终未变。当AI硬件从“功能机”向“情感机”进化,实时互动体验已成为产品成败的关键。作为全球领先的实时音视频云服务商,声网正通过持续技术迭代,将复杂的实时互动能力转化为标准化模块,为万物智联时代铺设底层通路。


文字:毛信慧


图片:毛信慧


原标题:《从“能听会说”到“能看会动”,声网携“陆卡卡”亮相AWE》


阅读原文


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com