百度使用AI数字人创建GMV
六月十五日晚,罗永浩数字人在百度电商完成了第一场直播,吸引了超过1300人观看。在这些人中,GMV(商品交易总额)突破5500万元,部分3C、超罗永浩5月份的真人首秀数据,如食品等关键品类商品带货单量,创造了数字人直播销售新纪录。
当大部分AI公司还处于多模式的阶段,抢用户的时候,百度已经基于更先进、更有感染力的数字人技术,为行业支付了满分答卷——用AI创造GMV。

但是,这样一个有实力带货的数字人是怎么做出来的呢?高感染力的数字人是怎么做到的?百度最近正式向我们透露了这个秘密。
百度已经用AI创造了GMV。
毫无疑问,2025年是智能体的第一年。除了之前流行的通用智能体,越来越多专注于办公、设计等场景的垂直智能体也相继出现,占据了人们的视野。
从业内人士的角度来看,百度的高感染力数字人本质上是一种超级智能体,其可用性可以从这次直播的结果中看出。
36Kr了解到,作为第一位数字主播和百度电商的合作,“数字人罗永浩”的背后是百度汇播明星的数字直播技术。这项高感染力的数字技术于今年4月推出。它的特点是可以像真人一样高度协调,思考决策,合作完成特定的任务,本质上是一个超级智能的身体。
百度副总裁、百度电商总经理平晓黎也表示,“百度的罗永浩数字人已经达到了堪比超级主播的体验效果。随着大模型和多模型能力的发展,数字人在未来有很大的潜力超越真人”。

据百度介绍,罗永浩数字人是惠播星的新一代高感染力数字人。通过罗永浩海量的数据训练,完成了剧本、动作、声音、剧本、问答、互动等维度的全面升级。通过双数字人的默契互动、数字人玩梗、更高频率的互动问答等。,提高了客户的沉浸感,完成了感受、内容、视觉、效果的四大突破。

平晓黎分享了她看到的很多用户的评论。听到最多的声音是大家都觉得很逼真,很多客户在直播中问老罗是不是AI。平晓黎认为,随着像罗永浩这样标杆IP数字人的积极反馈,用户对数字人的接受和认可得到了更大程度的体现。广播明星数字人不仅是降低商家成本的AI工具,也给客户带来了全新的感受。这是一个人货匹配的新诠释。“这是一个新的里程碑,意味着智能电子商务进入了一个新的篇章。“
难怪老罗也通过微博和视频表达了“完美结局”和“让我惊讶”和“我真的很佩服”的一键三连认可。当被问及他对数字人的感受时,作为惠播星的首席体验官,罗永浩表示超出预期:“数字人直播可能代表了电子商务直播的新趋势。”
毫无疑问,这是一场“展示肌肉”的特别直播,其结果直接超过了罗永浩5月份带货的GMV。与上一次相比,这次直播更受关注,直接引起了外界对其技术实质的好奇。
百度慧播星打造的数字人作为超级智能体,体现了极其全面的能力,不仅能让你拥有一个神形音容高度一致的数字人主播,还能通过多智能体调度实现AI大脑的转化和提升,让一个人看起来像一个直播团队。据报道,使用慧播星,直播平均转化率提高了31%,而播出成本降低了80%。这些都离不开慧播星的百度全栈自研能力,从而达到最佳的体验。
百度集团副总裁吴甜也在开放日现场表示,“从结构上看,百度的AI技术一直是全栈建设的,从模式上看,一直是全模式发展的。语言、语音、视觉技术经过多年的发展和积累。现在是从单模态到多模态融合的非常好的时间点。”
随着长期的技术积累,百度迎来了更早的变革时刻。罗永浩数字人在百度电商的直播成绩为智能体撕裂了一个缺口。未来,成本可以通过大规模控制到最低,直接解决了智能体赛道的两大问题。
在行业还处于多模态路线之争的时候,百度已经在用AI创造GMV了。
直球打在数字人身上
正如李彦宏所说,数字人是百度大模型多模式的综合体现。与通用视频生成模型相比,数字人专注于特定的垂直领域,具有优化模型、追求终极人机交互体验、实时交互能力、技术门槛相对较低、应用领域清晰、更容易形成可复制商业模式等优点。罗永浩数字人长期直播是百度大模型多模型能力的最佳体现。
据报道,全场直播AI调用知识库13000次,生成97000字产品讲解内容,双数字合作伙伴做出8300多个动作。
这次在交流会上,百度集团副总裁吴甜还特别向我们讲解了数字人背后的技术逻辑。

百度开发的多模协同数字人员技术规范重点包括剧本驱动的数字人员多模协同、结合多模规划和深度思考的剧本生成、动态决策的实时互动、文本自控的语音合成、高度一致性超拟真实数字人员长视频生成五项创新技术,完成了数字人员“神、形、音、容、话”的高度统一。最终呈现出一位超拟真数字人,具有高感染力,内容吸引人,人-物-场可以自由交互。
首先,语言模型是其核心驱动力。语言模型负责生成“剧本”,然后通过剧本引导语音和视觉进行多模式的系统和动态交互。

因此,剧本的质量对于数字人的表现尤为重要。要知道,数字人在直播过程中,最重要的是口语台词,这些台词会因为不同数字人的多样化风格、拟真化人的设计和吸引人的内容而表现出各种各样的结果。
这也是高质量、拟人化的剧本生成技术的加持,可以让数字人拥有鲜明的个性、个性和有趣的语言特征,就像真正的主播一样。这些都是对语言模型能力的考验。
在剧本生成过程中,会带出视觉标签和语音标签,引导语音模型调整语气,视觉模型对齐唇部运动和表情生成,让数字人看起来更加自然流畅。此外,数字人可以根据直播间的人气和用户的反馈,与用户进行即时动态的智能交互。
一位拥有高质量感觉的数字人直播,在剧本之后,关键环节还包括语音合成和视频生成。
在语音合成方面,通过文本自控的语音合成大模型,可以实现高复原的语音合成能力,结合直播台词和发音人的特点,产生风格合适、自然流畅的声音。为了解决罗永浩数字人现场配合声音的难题,他们选择了对话前后的编码器,统一计算了对话的历史输入和当前对话的语音合成,向我们展示了老罗和朱萧木数字人在现场直播中的自然对话效果。
与今天市场上常见的10S相比,、在20S形成视频时,数字人的直播工作通常是小时级的,百度因此构建了一套完整的数字人形象生成和驱动技术。
该技术是一项可控的、长视频的形成工作。通过结合多模态视频理解、跨模态信号生成、视频生成等技术,结合视频、剧本、语言、骨骼等特点,形成高度一致的数字人长视频。
不要卷超级应用,做很有用。
今年4月,百度高感染力数字技术发布时,李彦宏在现场表达了自己的感受。“2025年最激动人心的突破应用之一是AI数字人。”当时李彦宏介绍,百度发布的高感染力数字人具有声形超拟真、内容更专业、互动更灵活的特点,在电商直播、游戏、消费等领域有着巨大的应用空间。"
事实上,百度在投注大模型业务之初就提出了一个特殊的观点——百度不是推出“超级应用”,而是帮助更多的人和企业打造数百万“非常有用”的应用。数字人是当前电子商务行业“非常有用”的应用。
事实上,在罗永浩数字人在百度上线之前,业界一直在讨论罗永浩是否会再次高调下山,进入百度,在其他平台上复制自己的超高成绩。
结果却大大超出了行业的预期,更重要的是,尽管是数字人,但其用户转换效果却堪比真人。
有用户在直播间问“苏超”最近的热点事件,数字人罗永浩会回应:“我知道苏超最近很受欢迎。比赛第一友情第十四,热梗很多。我建议国足也和苏超一起学习。”感觉很流畅。
根据披露,本次直播拥有超过1300万用户观看,用户互动3倍,用户观看时间超过30%。、与真人直播相比,订单量高出150%。、订购用户比真人主播多230%。这一数字也意味着,用户对数字人的接受程度得到了验证。
百度电商业务部负责人、数字人创新业务部负责人吴晨霞也特别揭示了罗永浩数字人成功的真相——百度通过罗永浩和朱萧木的海量数据训练生成了数字人主播,并根据产品特点和罗永浩人定制了量身定制的直播剧本,完成了罗永浩和朱萧木的惯性动作和表情的高度统一,让他们像真人一样自然。
吴晨霞向我们解释说:“在很多场景下,我们担心数字人会更多地讲述整个剧本,但我们不能让用户继续观看。这次直播确认了。

一位罗永浩还是这样,更多的主播可能会有机会感受到技术普惠趋势带来的效率和便利。
要知道,过去因为技术不成熟,数字人效果差,普通消费者体验一言难尽。很多平台禁止数字主播直播卖货。
然而,百度电子商务通过成熟的技术结构开辟了新的市场。它不仅解决了多模式商业化的问题,也为直播电子商务行业找到了更科学、更有前景的技术方向。在多个电子商务平台上,数字直播正从一个可选项转变为一个必要的选项。
在这次交流会上,百度电子商务推出了两个主要计划:梦蝶计划将通过流量支持、超级主播数字化建设、预算支持等方式,实现百度超级主播数量的倍增;明星计划将再次增加10万只智能明星数字人,投资1亿元数字人消费补贴和1000万级运营援助,帮助更多普通人和中小企业开启数字人直播。
这可能只是一个新的开始。根据平晓黎的分享,百度将数字人分为四个阶段。“在1.0阶段,虚拟人的外表只是简单的完成,但动作僵硬,机械声音沉重。2.0是一个超拟真数字人,完成了对人物形象的高精度复制和大动作的支持,摆脱了纸人的效果,可以生成口头剧本与观众互动。目前主流数字人处于这个阶段。高感染力的百度数字人将AI数字人带入3.0阶段。

但事实上,百度的终极理想不是3.0,而是一个真正超越真人的数字4.0时代。“数字人有机会登上主流舞台,在很多方面都可以超越真人。比如长时间待机,定向推广,可以让同一个人用不同的语言,用不同的风格直播。数字人的天花板还是很高的,超越真人效果的机会很大。没有数字人会取代真人。因为数字人的最终目的是为人服务,所以人类总是决定技术的方向。”
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




