在Agent开始创造自己的时候,AI商品的爆发还会是一个遥远的梦想吗?
Agent无疑是2024年AI领域最热门的话题。
“这个大模型很帅,但是我能用它做什么呢?”“这是2023年年度AI应用之间。到2024年,智能体(Agent)解药已经成为这个问题最有希望的方法。
通过复杂的流程和工具,智能体可以处理更复杂、更定制的任务,最终产生具有自主性、感知能力、管理能力和行动能力的软件实体或物理实体。吴恩达,Jim 圈内的Fan等大佬纷纷投身其中,证实了智能体的实际效果。
今年三月,吴恩达教授在博客中提出, HumanEval GPT-3.5(Zero-shot)测试准确率为 48.1%。GPT-4(Zero-shot)为 67.0%。而且通过和 Agent workflow 配合,GPT-3.5 完成了 正确率为95.1%。
(图表:在智能体技术下,吴恩达进行的实验,GPT3.5GPT4的性能远远超过原始GPT4)
所以今年,从大企业到民间高手,都在构建智能体。Copilit,大到微软,小到无厘头的AI算命,Langchain、Coze、这些构建智能体框架的工具Dify也如雨后春笋般开枝散叶,热度持续上升。
(图片注意:INSIGHT整理的智能体及AI自动化流程有关公司)
OpenAI 前科学家Andrew Karpathy曾经说过,普通人、企业家和极客正在建立AI。 与OpenAI这样的企业相比,智能体更具优势。
一个依靠AI智能体工作流的新产品经理时代来了吗?不一定,因为AI可能比人类更擅长构建智能体。
循环逻辑的自动化
8月19日,不列颠哥伦比亚大学的三名研究人员发表了一篇名为《自动化设计智能系统》的论文。在这篇论文中,他设计了一个系统,让AI可以自己发现和构建智能系统,自己迭代。
回顾OpenAI对智能体的经典定义,智能体是一种能够存储知识、计划和软件工具的商品。
当我们用工作流来构建智能体时,我们也利用现有的知识(智能体形式的知识)来计划(构建过程),最终使用工具(访问API)来执行输出,而不是超出智能体本身的能力范围。
那么,为什么不建立一个能够自动发现和设计智能体的智能体呢?
按照这个思路,论文作者把设计师称为元智能体,他让它设计一个新的智能体。将设计好的智能体添加到数据库中作为数据,不断迭代新的、更强的智能体版本。
整个方法,他们称之为ADAS。(Automated Design of 智能体ic Systems)。
所以,这个系统具体怎样落地呢?
让链条转动
在ADAS系统中生成新智能体的过程可以分为三个部分:
首先建立搜索空间,可以理解为通过一些基本的工具规则,它可以制作出新的隐性智能体。
其次是运行优化算法,它规定了元智能体如何利用搜索空间,取元素具体构建新的智能体。
最后一部分是运行评估函数,它将根据性能等目标对构建的智能体进行评估。
在本文中,研究人员逐步解释了如何构建上述三个核心部分。
首先要确定构建搜索空间的基本要素,研究者认为最好的方法是代码。
这是因为代码具有图灵的完整性,可以表达所有的概率。因此,理论上,元智能体可以找到任何可能的构建模块(如提醒、工具使用和控制过程),并以任何方式组合这些构建模块智能系统。
更重要的是,用于构建智能网站的Langchain已经代码了各种工作流。因此,相关数据很容易,不需要转换。工具调用,比如RAG(retrieval augmented 像generation检索增强生成这样的能力部件也已经有了很好的代码基础。
选择代码构建搜索空间,也意味着ADAS产生的智能体能直接运行,用于纠正错误,跑分,无需人工干预。
在定义搜索空间后,研究人员开始设计优化算法,即让元智能体探索可能完成任务的方法。这个过程基本上是通过提示项目来完成的。
第一,先给它一系列系统的提示。
接着,将基本Prompt提到的信息交给元智能体,包括
基本描述任务。
2. 最基本的框架代码,如格式提醒、封装等操作名称,以及调用其它基本模型(FM)、API能力。
(图片注:部分框架代码)
任务输入输出的格式和案例。
原来迭代中产生的一些智能体形成的案例数据库,包括其基线检测结果。
(图片注:智能体库中的一个案例)
基于这些基本提醒,ADAS可以开始运行,生成一个智能体来解决特定的问题。
在这个过程中,元智能体验进行了第二轮反思,以确保智能体的原创性和准确性。它会检查新产生的代码框架是否有错误,是否比智能体案例库中的过去结果更具创新性。
元智能体还应根据其对实用性能能力的“理解”对生成的智能体进行初步评估,以确定其性能是否优于之前的智能体。
如果这些条件中有一些不满足,元智能体就必须对产生的智能体进行修改或简单地重建。
(图片注:Prompt在第一轮反思)
经过第二轮的反思和修改,元智能感觉给了第三步的评估系统一个新的、好的、新的智能体。
评估系统将根据基线测试对该智能体的能力进行客观评估,然后将其返回到智能体案例库。
根据之前的评分结果和案例库中的过往案例,元智能感受继续进行下一次迭代优化,以达到更高的任务性能。
在这个过程中诞生了一整条全自动链。为了生成一个效果极佳的智能体,可能需要迭代两位数以上的次数。
超越手搓智能体
通过ADAS方法自动化过程获得的智能体能有多复杂?下图是经过14次迭代后产生的智能体框架。
在这个智能体的结构中,有五个思维链给出了初步答案。在三个专家模型和一个模仿人类给出评价的模型反馈这些答案后,这些答案将在优化过程阶段进行三次修改和加强。最后,三个结果被评估和筛选出来,最终答案被合并。
如果人类操作这种复杂的设计水平,估计需要一周的时间。这只是写提示词和设计结构的时间,更不用说测试和横向比较了。
当然,这也是元智能体在设计中不断迭代的结果。
在迭代过程中,随着迭代次数的快速增加,其生成智能体的能力也迅速增强。在第三次迭代中,元智能体自己学习了多思维链策略,在第四次迭代中学会了使用动态记忆来优化答案。第14次,它产生的智能体实现了上述复杂性。
最后,与最初的简单大语言模型相比,其最佳解决方案的能力可以提高250%以上,与最有效的手挫智能体COT相比。-SC(多思维链回答)提高了75%的方法。
不只是ARC,ADAS模式中生成的智能体在各个方面都比目前最强的所有标准手搓智能体,比如COT、LLM Debate、Self-Refine显得更加强大。ADAS在处理复杂目标和跨领域应用时所产生的智能体越强。
此外,这些智能体本身具有一定的迁移能力。例如,能够解决科学问题的智能体也能在数学方面取得好成绩。因此,一个最好的框架很可能会解决许多领域的相关问题。
虽然手搓智能体的时代即将结束,但智能体范式的发现时代可能还会继续。在整体测试中,ADAS没有发现除了智能体构建范式之外的新的构建方法,而是更多地重组和使用这些方法。
但是,对于一般的AI来说, 对于Agent开发者来说,这足以取代他们的工作。
但ADAS的流行也许还需要克服一个障碍,那就是成本问题。
根据研究人员的说法,现在 ARC OpenAIAI在上面进行搜索和评估。 API费用大约是 500 美元,但是在推理和问题解决领域的一次使用费用大约是 300 美元。即每次迭代大约需要20美元。与如此昂贵的成本相比,现阶段人力仍有一定的优势。
但是研究人员也表示,因为研究得早,他们使用了“gpt-3.5-turbo-0125”模型。而最新的 GPT-4 模型“gpt-4o-mini只有不到“价格”gpt-3.5-turbo-“0125”的三分之一,性能更好。而且从实验的角度来看,GPT 在一定数量的迭代之后,3.5能力迭代的智能体进入了性能瓶颈,十四次迭代都是浪费。所以,拥有更好的评价和资源管理设计,也可以大大降低成本。
很明显,人力的价格优势也不会持续太久。
智能体的爆发,是否真的拉开了序幕?
为什么这种自动化技术如此重要?
在移动互联网时代,各种各样的App面向各种赛道,共同堆积了科技繁荣的时代。然而,由于当时的新工具需要学习,移动应用的研发经历了一个漫长的渗透阶段,最终容纳了足够的开发者。
这一速度在早期更慢。按Geoffrey计算。 1990年,Moore根据个人计算机的经验提出了“跨越鸿沟”理论。在R&D初期的几年里,只有约13.5%的erarly。 adopter应该使用这种技术,它不是开发,而是使用。
所以开发者的短缺,也许是技术推广的一个重要瓶颈。
当然,估计智能体构建的开发渗透速度要快很多。因为它比过去的软件开发简单得多。比如前阵子流行的Wordware,可以让普通用户用自然语言完成智能体的构建,降低门槛。
但是思维链、多步循环等设计还是很复杂的,越来越多的工具需要在这个过程中使用。所以真正能投身智能体开发,用好这个工具的人并不多。
在与黄仁勋的对话中,扎克伯格曾经说过,即使大型技术不再发展,光是理解智能体的潜力就需要五年时间。
所以,与技术相比,开发者可能更是智能体尚未爆发的核心瓶颈。现在能做到这一点的人还是太少了。
但是,Agent有很多。
如果更多的商业公司采用这种一键生成优化Agent的技术进行升级,初期技术人员的瓶颈自然就不复存在了。智能体探索各行各业的覆盖能力和能力深度的速度会大大提高。
也许明年,人类历史上的第一个Killer AI App,作者是一个AI。
本文来自微信微信官方账号“腾讯科技”,作者:郝博阳,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com