大模型驱动的群体智能技术正点燃汽车工业AI转型的“星星之火燎原”

04-18 09:24

大模型的力量渗透到各行各业，汽车人在躁动和焦虑中期待着行业的巨大变化。但是到目前为止大模型上车的尴尬现状如下：与车无关。

类似于“文生图”的功能，与核心驾驶车辆场景不匹配，甚至谈不上良好的车内娱乐。显然，汽车公司的AI转型更加无能为力。

大型重塑生产力，汽车工业不能也不能落后。事实上，AI界产学研一直在思考和实践。

近日，由产学研各界联合发布的《大模型驱动的汽车行业群体智能技术白皮书》首次明确了如何在整个汽车行业过程中使用大模型。

大型汽车行业模型，有什么用？

首先断句：汽车，行业大模型，这样理解更准确。

因为这本白皮书提出的大模型不是针对普通用户的“文生图”等应用，而是为汽车企业的生产经营流程提供服务。群体智能商品。

群体智能是什么？？

对于特定任务，AI模型是一个智能体。群体智能是指多个智能体通过合作和信息共享形成的集体智能，可以处理更复杂的任务，展现出超越单个智能体的能力。自然界中的蜂、蚂蚁等物种都表现出这样的群体智能。

而且大模型能力加持的群体智能，能够更有效地沟通，处理更大规模、更多类型的任务。

整车制造、供应链、汽车企业经营流程 R&D和工程、营销和分销、营销、售后服务、贸易和物流、租赁和金融服务、回收和再创造等。群体智能不仅是一种简单的自动化工具，也能给汽车行业带来前所未有的效率提升和个性化体验。

例如，在汽车制造过程中，通过多智能体的自动交互，可以实时监控生产线的运行状态，预测设备的维护需求，从而显著减少意外停机时间。

此外，智能体们还可以通过智能分析生产数据，帮助制造商提高零部件的库存管理和供应链，不仅降低了库存成本，而且提高了生产效率。

以及，跨部门的智能体，还可以根据市场需求、原材料供应情况和生产能力，智能调整生产计划，确保生产线的高效运行。

除“造好车”外，以大语言模型为核心的群体智能，其价值更体现在帮助汽车企业“卖好车”上。

在汽车营销阶段，一般分为五个方面：客户获取、清洁、转换、招待和交易。

通过广告、品牌活动、汽车垂媒、品牌私域等方式，通过种草等方式获得客户，可以快速获得大量潜在用户的基本画像和联系方式。然后是一系列的“孵化培养”工作，用于沟通、实车和讲解。

周期长，转化率低，特别是靠销售个人沟通能力，精力，存在很大的不确定性。

在《白皮书》中，构建了数智研究院场景解决方案、新媒体运营场景解决方案、用户运营场景解决方案、集约DDC场景解决方案、情感运营场景解决方案五大智能营销解决方案。

全部以销售结果为导向，形成自动流水线式工作流，关键在于选择不同的多智能体组合，模拟各个阶段的工作角色。。

例如，对于客户定制的购车需求，“销售智能体验”收集用户个人情况，分析高匹配度的需求车型，然后用专业的演讲表达结果，并采用多轮对话。与顾客讨论最好的营销计划。

同时，操作主管的智能体可以在链接中立即检查智能体的跟进情况，对跟进情况、质量检查和用户画像进行检查，并将其反馈给智能体监控平台。随着案例的增加，任何客户运营智能体与客户沟通的经验都会沉淀下来，形成智能体工作流的迭代机制，从而在沉淀中提高智能体孵化客户的效率。

因此，在智能体智能销售场景下，一个人类销售经理只能通过多智能体监控平台实时查看整个组织多智能体的工作情况，大大扩大了工作能力的边界和范围。

总而言之，清华自然语言处理实验室、易慧智能、面壁智能在白皮书中提出了一种全新的做法，To 大模型B的“上车”方式：

在汽车企业的工作流程中，使用不同的AI模型来代替不同的工种，简单地说，数字员工。

但是创新之处在于，他们并非自动取代简单的重复任务。，相反，在一群数字员工[6]之间，通过自然语言相互交流合作，在没有形式“主脑”控制的情况下，发挥了提高质量和效率的作用。

此外，这种协同可以应用于几乎所有从生产到销售的环节。

正是这样一群拥有基本工作能力和沟通能力的数字员工，才是拥有一定AGI(通用人工智能)的大模型。

如何实现？

单个智能体比较容易做，根据不同的任务有不同的基本模型，比如ResNetNet，用于分类目标检测。、只要有合适的数据进行训练，就可以产生样本的GAN等。

然而，许多这样的基本模型需要在工作流程或系统工程中发挥作用。过去，这些模型几乎不是沟通联系，合作基本上取决于人工写作的规则。这导致信息处理能力有限，导出决策片面分散，维护成本高。

而且《白皮书》中提出的群体智能之所以能够work，关键在于组织双生。

其中包括三个关键部分：职位双生、架构双生和业务双生。

其中，岗位双生利用大模型技术建立数字员工，这些虚拟人员可以模拟真人的交流方式，包括包括声音和表情，并具有“感性智能”。它们可以实现内容生成、基本沟通、客户服务等工作。

智能系统有一个特殊的提示框架，与岗位相关的提示词可以根据提高词框架巧妙设计，答题范围和方法可以精确限制底座大模型。

但底座大模型是通用语言模型，其内置知识是通用的，对于特定领域的问题可能无法给出准确的答案。所以，检索增强生成也是特别引入的。（RAG）技术，可将特定领域的文档和问答灌输到系统中，在向量数据库或搜索系统中形成“长期记忆”。在生成过程中，将这些记忆注入到提词中，让数字员工能够准确回答具体领域的问题，从而填补底座大模型的潜在不足。

比如在汽车领域，可以让智能体调用 API 界面，并根据界面返回的行业知识，生成专业、可追溯的内容。但是，如果提示词工程和知识库类的长期记忆补充仍然不能完全满足项目的需要，也可采用高效预训练和高效微调技术。通过微调和后期培训，我们可以“教”与大模型相关的垂直领域知识，赋予数字员工个性化，从而更好地适应不同的需求场景和客户需求。

架构双生它是将真实企业的组织架构投射到数字世界中，通过智能网络技术定义智能体之间的交流和逻辑。可以形象地理解为上面数字员工需要遵循的“OA流程”。

基于大型群体智能体技术，例如 AgentVerse(清华自然语言处理实验室和面壁智能联合开发)不仅可以定义智能体本身的记忆和能力，还可以定义智能体之间的交流方式和逻辑，在一定程度上可以将现实人类的组织结构映射到数字孪生世界，生成与真实公司结构相对应的数字孪生结构。

该技术结构通常将多智能体环境分为几个功能模块，包括灵活代码扩展和定制功能设计框架，智能语言交互合作机制、智能系统功能和结构演变机制等。

整体工作流程分为四个阶段：专家招聘阶段，根据问题解决的进展情况确定和优化座位人员。在合作决策阶段，选定的智能体进行联合讨论，以制定解决问题的策略。在行动执行阶段，实施决策阶段计划的智能体与环境交互行动。评估与反馈阶段，评估当前状态与预期结果的差异，为了在下一次迭代中进一步细化，如果目前的状态不尽如人意。

在技术框架技术上，定义了各自的界面，用户可以根据自己的需要重新定义不同的模块功能。这种可定制性使得数字双胞胎结构不再受到固定限制，而是可以根据不同行业和企业的需求灵活调整。用户可以根据具体情况和任务要求定制数字双胞胎结构，以便更好地适应实际应用领域。

业务双生自动实施实际业务，通过整合大语言模型、搜索增强技术、构建智能体等方式提高业务实施效果。这部分还是用大模型的“工具”来增强数字员工的战斗力[10]。

例如X 基于强大的大语言模型核心，Agent是一个面壁智能创新的AI智能框架。它创新地引入了一种“双循环机制”，然后在处理复杂的任务后，它可以从“宏观”和从两个角度综合考虑“微观”，类似于人类“左脑”与“右脑”的协同工作方式。

外部循环承担着规划全局任务的责任，巧妙地将复杂的任务分解成可操作的简单任务，促使其成为可操作的任务。 X Agent 能有效地完成整体任务分解和计划，展现宏观任务处理的领导力。

内循环，X Agent 迅速改变身份，充当高效率「实施者」，确保外循环传达的子任务能顺利达到预期。在外部系统中，它能灵活地搜索工具，并根据子任务的特点逐步解决。

在完成子任务之后，内部循环产生详细的反思，并向外部循环传递反馈信息，指示当前任务是否完成，以及在任务执行中的潜在提升。

所以，一切的关键，都在于大模型。在这里，我们不妨简单地普及一下大模型：

现在几乎所有的大语言模型都是 Transformer 该模型是一种系统架构。其主要思想是通过输入序列(可以是文本、语音、图像、视频等)的全局信息。)可以通过自我注意机制获得，并对序列中的每个元素进行全局建模。每一个元素之间的联系**。

翻译一下，就是Transformer除了感知之外，还有归纳因果的基本能力，让人工智能迈向认知世界的第一步。

因此，《白皮书》中提出的群体智能是基于具有一定通识能力的清华自然语言处理实验室、易慧智能、面壁智能的大模型。

传统AI Agent，即单一的人工智能体，同样具有感知、决策、知行的能力，但其任务目标单一，输入数据相对固定。

对大型模型而言，与人类的互动是基于提醒。（Prompt）实现的，顾客提醒是否清晰明了会影响大模型回答的效果。大型“大型”以极大的参数规模捕捉复杂的语言结构，实现前后文本理解和连贯输出。这种“能力出现”现象体现在模型可以进行抽象思维和创造性写作等高级认知任务上。ChatGPT之所以震惊世界，正是因为它对人类几乎涉足的各个领域都有准确的认识。

假如这种能力被灌注到一群不同的智能体中，它们就可以直接使用⽤复杂的⾃然语⾔进⾏交流。

并⽀运用抽象思维，处理复杂问题，交换丰富的信息。基于对语。⾔信息的深⼊理解和分析，可以在决策中考虑更多⼴泛和深⼊的因素。

比如软件开发任务可以分解成一系列的“生产线”，子任务可以通过角色扮演交流实现智能体之间的方案建议和决策讨论过程:

第一，设计三个角色CEO、CTO和CPO讨论软件开发方案，决定使用编程语言来感受智能驾驶算法的功能。

接着进入编程，程序员编写代码，设计者设计GPU。。

测试：代码审核和实际运行两个步骤，涉及「代码审核员」和「测试工程师」两个角色。

文件:环境描述和使用手册。前者反映了智能驾驶算法所依赖的环境，CTO指导程序员完成。成功。而后者则由CEO决定所包含的内容，交给PRD生成。