AI时代新风口，吴恩达亲授智能体四大设计模式

04-24 22:52

吴恩达认为，智能体的发展将成为AI时代的重要力量，甚至比基本模型更重要。下班后，「吴老师」连续发布多个博客，向大家介绍了AI智能体的四种设计模式。

AI时代的风口在哪里？

吴恩达认为，AI 今年，Agent将推动人工智能的大规模进步。

——即使是下一代基础模型也有可能产生影响。

他希望所有从事人工智能工作的人都能关注AI智能体的发展。

Andrew Ng

大佬「退伍」之后，作为专业人士「教书先生」，依然孜孜不倦，授业传道解惑。

最近，在业余时间，吴恩达继续分享许多关于智能体的意见，并定义了AI。四种Agent设计模式，

Reflection（反思）、Tool use(使用工具)、Planning(计划)和Multi-agent collaboration(多智能体协同)：

-反省：LLM检查自己的工作，并提出改进的方法。

-使用工具：LLM利用Web搜索、代码执行或任何其它功能的工具，帮助自己收集信息，付诸行动或处理数据。

-计划:LLM提出并实施多步计划来实现目标(比如一篇论文，先写大纲，然后搜索研究各部分内容，再写稿子)。

-多个AI体合作：多个AI体合作与单个智能体相比，agent协调工作、分工任务、讨论和辩论思路提出了更好的解决方案。

智能体工作流程

大多数人使用LLM通常是zero-shot方法，模型根据需要逐个导出token，没有回到修改的机会。

——这相当于要求人类从头到尾一口气写完一篇文章，不能回头。——虽然这是一个艰难的要求，但大模型目前做得非常好。

但是事实上，我们人类正常的工作流程通常是迭代的。

例如，对于一篇文章，可能需要：

计划一个大纲；通过网络搜索收集更多信息；

写原稿；

阅读原稿，发现不合理的论点或不相关的信息；

反复修改...

这样的工作方法对人类写好文章尤为重要，-那么对AI来说，是否也应该如此？

不久前，世界上第一位AI程序员Devin的演示，在社交平台上引起了轰动。

因此，吴恩达团队对HumanEval编码基准测试中的多种算法进行了研究，如图所示：

在zero 在shot情况下，GPT-3.5的正确率为48.1%，GPT-4表现更好，达到67.0%。

但是，在加入了智能体迭代工作流程之后，GPT-与GPT-3.5相比，3.5的正确率直接飙升到95.1%，-Agent的工作流效果显著，GPT-3.5的提升更为令人印象深刻。

现在，各种开源智能体工具相关研究的总数正在飙升，善于使用这些工具和经验，会使你的LLM更强大。

Reflection

反省，作为一种易于快速实现的设计模式，已经带来了令人惊讶的性能影响。

在LLM中，我们可能有过这样的经历：（ ChatGPT/Claude当给出的结果不尽如人意时，我们可以提供一些反馈，当LLM再次导出时，我们可以给出更好的反馈。

——如果LLM自己执行这个反馈过程，会不会更好？这就是反思。（Reflection）。

以编码任务为例，LLM可以通过类似的提示反思自己的导出：

它是用来完成任务的 X 代码，仔细检查代码的准确性、风格和质量，并就如何改进它提出建设性的指责。

下一步，将之前产生的代码和反馈放入提示的前后文本中，并要求LLM根据反馈重写代码。

当然，我们也可以使用一些工具来评估LLM的导出质量，使上述过程更加进一步，

例如，通过单元测试来检查代码在功能测试中的结果，或通过web搜索来检查导出的准确性。

另外，还可以使用多智能体框架来实现Reflection，如上图所示。：一方负责生成导出，另一方面重点是对导出提出建议。

假如你对Reflection感兴趣，这里推荐以下文章，可以提供更多的相关知识：

论文地址：https://arxiv.org/pdf/2303.17651.pdf

论文地址：https://arxiv.org/pdf/2303.11366.pdf

论文地址：https://arxiv.org/pdf/2305.11738.pdf

Tool Use

使用工具时，LLM可以调用给定的函数来收集信息、付诸行动或操作数据，这是AI智能体工作流程的关键设计模式。

最常见的例子是LLM可以使用工具来执行Web搜索或代码执行。事实上，一些面向消费者的大企业已经使用了这个功能。

比如你问Copilot这样的在线LLM？：「哪个是最好的咖啡机？」，它可以决定进行网络搜索，并且下载一个或多个网页以获得前后文本。

归根结底，仅仅依靠预训练的Transformer来生成导出答案是有限的，而提供Web搜索工具可以使LLM做得更多。

LLM使用特殊的字符串，例如 {tool：web-search，query：coffee maker reviews} ，要求调用搜索引擎。

后处理步骤将查找字符串，调用具有相关参数的Web搜索函数，并将结果添加到输入前后文本中，并将其传输回LLM。

例如，如果你问，「假如我在12年内获得7%的复利，投资100美元，最终会获得多少收益？」，

使用代码执行工具，运行Python指令，LLM可以计算：{tool：python-interpreter，code：100 *（1 **12}0.07。

现在这个过程更接近一步，我们可以搜索不同的源头。（Web、Wikipedia、与各种生产力工具(发送电子邮件、阅读/写日历内容等)进行交互。)，并希望LLM自动选择合适的函数调用来完成工作。

另外，当有太多的函数可以使用时，所有的函数都不能放在前后的文本中。此时，可以使用启发方法，选择LLM前后文本中最相关的子集。

事实上，当有太多的文本不能作为前后文本包含时，检索增强生成。（RAG）该系统还采用相同的方法，选择要包含的文本子集。

这里还推荐几篇相关文章：

论文地址：https://arxiv.org/pdf/2305.15334.pdf

论文地址：https://arxiv.org/pdf/2303.11381.pdf

论文地址：https://arxiv.org/pdf/2401.17464.pdf

Planning

计划，利用LLM将目标任务分解成较小的子任务，然后独立决定执行过程。

例如，如果我们要求智能体在线研究给定的主题，LLM可以将其拆解为特定的子主题，综合发现，编写报告。

曾经，ChatGPT的发布让很多人经历过。「ChatGPT时刻」，人工智能的能力远远超出了每个人的预期。

——而相似的「AI Agent时刻」，也许很快就会到来。

吴恩达回忆起之前的一次现场展览，由于网速问题，Agent的Web搜索API回归了错误，——Agent实际上转向了维基百科的搜索工具，最终完成了任务(救了大命)。

吴恩达说，看到Agent以意想不到的方式完成任务并取得成功是一件美好的事情。

但也有网友表示，大事不好啦，Agent失控了！

事实上，有许多任务不能通过单一步骤或单一工具来完成，但是Agent可以决定要执行哪些步骤。

例如，要求智能体参考一张男孩的照片，画一张同样姿势的女孩的照片，这个任务可以分为两个步骤：（i）检查男孩照片中的姿势，（ii）用检测到的姿势渲染女孩的照片。

LLM可能会导出类似的导出。 {tool：pose-detection，input：image.jpg，output：temp1 } {tool：pose-to-image，input：temp1，output：final.jpg} 这种字符串可以指定计划。

Planning是一种很强的能力，但它也会产生意想不到的结果。

吴恩达说，Planning仍然是一项不成熟的技术，客户很难提前预测它会做什么，但我们可以期待技术的不断发展来解决这个问题。

此处还推荐3项相关优秀工作：

论文地址：https://arxiv.org/pdf/2201.11903.pdf

论文地址：https://arxiv.org/pdf/2303.17580.pdf

论文地址：https://arxiv.org/pdf/2402.02716.pdf

参考资料

https://twitter.com/AndrewYNg/status/1779606380665803144

本文来自微信微信官方账号“新智元”（ID:AI_era），作者：alan，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

300亿防晒跑道：完美竞争，顾客反吃技术内卷收益

ZARA撤店是快时尚式微缩影。

启动临沂苏宁广场招商发布会，计划引进300个优质品牌

美国医生开始接受AI

教育部公布了2023县区社区学习中心经典案例和社区教育品牌课程推荐名单

项目推荐

梯影传媒

AI云印侠

数策智检