也谈AI Agent基础设施的兴起

2024-06-27

美国风险投资公司Madrona的合作伙伴Jona 最近，Turow发表了一篇关于AIAgent基础设施兴起的文章，分享了他对Agent领域的观察和思考，并表示Madrona正在积极投资AI。 Agent、依靠Agent的基础设施和应用程序支持Agent。

这篇关于行业洞察的文章，Jon Turow提到，虽然目前的Agent有局限性，但并不影响Agent快速增长的势头，也促进了对新基础设施的需求。而且全行业需要开发新的AIAgent基础设施，包括特定的开发工具、Agent即服务、浏览器基础设施、个性化记忆解决方案等，以方便地释放Agent的潜力。等等。

Jon Turow呼吁企业家积极参与这一新兴领域，因为AI 目前，Agent基础设施的发展还处于起步阶段，潜力巨大，发展空间巨大。

在Agent基础设施领域，澜码科技探索了一年多，对我来说，使用工具（Tool Use）以及个性化记忆（Personalization Memory）是目前AI Agent最重要的基础设施，那也是澜码科技正在重点关注的问题。

对于Agent的基础设施建设需求，我们将使用Tool在Tool场景中进行大量的实践。 Use Personalization 承接Memory的基本结构路径。

个性化记忆需要世界模型来帮助构建

这个行业有一个简洁的Agent表达公告，即：Agent=大模型（LLM）记忆（Memory）主动规划（Planning）工具使用（Tool Use）。基于此公式，一个基于LLM的 AI 可以将Agent拆分为LLM、四个部分用于规划、记忆和工具。

Agent记忆库负责AI存储和管理为了支持AII，Agent在任务和环境交互过程中产生的信息和数据。 Agent的决策和行为，所以如果有决策和行动，也需要Agent增加Tool。 Use的能力。

随着大模型本身的发展，特别是大模型的推理能力和反思能力的提高，Agent平台需要具备个性化的记忆和工具使用能力。

在我看来，记忆库不仅仅是存储，还包括个性化记忆，另外Agent之间分享记忆也很重要。经过一年多的实践，我们发现，最难实现的是个性化记忆，个性化记忆也要和Tool一样。结合Use，个性化记忆需要世界模型来帮助构建。

在To 在B场景中，“世界模型”不仅包括工作流程的语境、对话或工作流程的语境和状态，还包括数字世界中的各种系统和智能世界中的其他Agent和员工。有了这些，Agent可以更准确地理解和预测现实物理世界中的各种情况，并做出最好的决定。

以澜码营销管理Agent为例。通过各种视频、书籍、理论等预训练，我们可以培养出一个类似于只有数字世界的“营销管理AlphaGo”，然后通过一个优秀的世界模拟器，让“营销管理AlphaGo”通过历史数据和相应的观察与真实的物理世界互动，比如与一线人类销售进行对话，积极获取行业信息等。使它能更好地观察和与物理世界和数字世界互动，最终成为销售负责人的智能助手。

专家知识是构建这一独特Agent的“天花板”，在构建这一营销管理Agent的过程中，由于专家知识-销售负责人的管理理念、风格、策略及其制定的规则，决定了整个Agent的流程、方向甚至界限。对于这个Agent来说，大语言模型只是一个基础——负责理解和生成自然语言，这样Agent就可以更好地与人类员工沟通和合作。

为什么Tool？ Use非常重要？

如果Agent完成了Action和目标的判断，并且判断需要工具，那么Tool就会进入Tool。 Use阶段。

在这一阶段，需要考虑Agent合作、Agent编排、函数&API&部件等的调用，还包括与安全质量相关的鉴定和监控等。

我们认为，如果Agent判断需要Action，Function Call能力(函数调用)非常重要。。尤其是随着开源模型能力逐渐追平GPT-4，AI 依靠Functiont，Agent将能够 Call。

Function 在编程中，Call是一种允许一个函数(或方法)在另一个函数中执行的机制。为什么Function？ Call能力至关重要？

在ToB需求场景中，Agent工作的实现方式和路径的关键在于业务目标的实现。这里提到的“业务目标”可以理解为公司期望在特定时间内达到一定的业务成果或状态，实现这一目标的过程可以看作是一种“状态机转移”。

“状态机”是计算机科学中常见的概念。它描述了一个系统在不同离散状态之间转换的模型。在这个模型中，系统可以根据预设的规则在多个状态之间转换。在前面在B需求场景中，每一种状态都代表着业务过程中的一个阶段或步骤，而状态之间的转变则对应着从现在的业务阶段向下一个阶段的转变。

但是在工作流程的状态机模型中，Function Call负责促进状态之间的转换和执行相关的业务逻辑，是实现状态转换、执行领域模型和处理工作过程中各种情况的关键机制，Functionction的合理设计和使用 Call，能保证工作流程的顺利进行，从而实现企业的经营目标，因此它起着至关重要的作用。

理想情况下，Agent在完成Action之后，还会反馈给记忆模块。（Memory）通过更新记忆，Agent可以更好地处理复杂的任务和场景，提供更智能、更个性化的服务。

2024展望

2024年已经过半，大语言模型能力，尤其是开源模型，正在不断提升，逐渐接近GPT-4水平。然而，市场上可见的Agent仍然不智能。

对我来说，根本原因是大语言模型的幻觉问题尚未得到有效解决——在完全没有引导的情况下，基于LLM的Agent很难“可靠”，特别是在ToB场景中，开发者建造的Agent更倾向于自动化而不是真正的自主化，以确保Agent的准确性。。

优化和改进工具使用和个性化记忆两大基础设施有望改变上述情况。

澜码科技作为一家Agent基础设施服务提供商，在2024年下半年也将重点放在两个方面：

Function集成在ToB场景中，Call的能力使Agent/数字员工具具有选择工具、使用工具、反思工具的能力；
按照多层状态机构构建目标定义，以及如何实现目标的学习算法。

我一直认为，在执行过程中，Agent规划和实现目标的能力取决于它的状态。（State）以及可以采取的行动（Action）。特别是在业务流程自动化和数字员工的情况下，Agent还需要具备相应的领域知识，以有效地实现目标，这些内容可以帮助Agent选择合适的Action，从而促进工作流程的自动化，从而实现既定的目标。

以下另附《The Rise of AI Agent Infrastructure》原文翻译：

原始传送门：https://www.madrona.com/the-rise-of-ai-agent-infrastructure/

AI智能体基础设施的兴起

GenAI应用的爆炸性增长不言而喻，其应用范围包括生产力、开发、云基础设施管理、媒体内容消费，甚至医疗健康收益周期管理等。由于过去24个月模型和底层平台基础设施的快速优化，这种爆炸性增长得以实现。这些基础设施简化了代管、微调、数据加载和内存，使得构建应用更加容易。所以，许多创始人和投资者都把目光转向了软件栈的顶端，我们终于可以在终端用户中使用最先进的技术了。

然而，生成式AIR&D的快速率意味着很少有假设可以长期建立。现在应用程序正在以新的方式建设，这将对底层基础设施提出新的要求。这些开发者正在一座只有一半的桥上加速前进。如果我们的行业不能在软件栈的基础上使用一套新的AI智能体基础设施部件来支持它们，它们的应用程序就不能充分发挥它们的潜力。

智能体的崛起

一个关键的变化是AI智能体的崛起:它们是可以规划和执行多步任务的独立参与者。如今，AI智能体已经逐渐成为终端用户的常见接口，甚至成为开发者构建的核心，而不是直接面向底层模型的Prompt。这进一步加快了新应用的构建速度，在平台层创造了一系列新的机会。

从2022年的MRKL项目到2023年的ReAct项目、当BabyAGI和AutoGPT开始时，开发者开始发现链条提示和响应。（chains of prompt and response）可将大任务分解为小任务(计划)，并独立执行。LangChain、LlamaIndex、Semantic Kernel、根据Griptape等框架，智能体可以通过代码与API进行交互，而Toolformer和Gorilla等研究论文显示，底层模型可以学会有效地使用API。根据微软、斯坦福和腾讯的研究，AI智能体的协调工作比独立工作更有效。

如今，“智能体”这个词对不同的人有不同的含义。如果你和足够多的从业者交谈，你会发现一系列可以称之为智能体的概念。BabyAGI的创造者中岛洋平（Yohei Nakajima）这个问题有一个很好的处理方法：

定制智能体：由提示词和API调用组成的链条，具有一定的自主性，但在狭窄的约束中操作。
职业智能体：在任务类型工具等子集中动态决定要做什么。受到限制，但没有手工设计的智能体那么有限。
通用智能体：智能体AGI(通用人工智能)-仍在地平线之上，与今天的实际应用相差甚远。

GPT-4o等我们最先进的前沿模型、Gemini 1.5 Pro、Claude 3 Opus等。)在推理上的局限性是制约我们建立、部署和依赖更高级别智能体(专业和通用)的关键限制。利用前沿模型对智能体进行规划，确定优先级和自我验证，将大任务分解为小任务，以确保导出正确。所以，适当的推理水平意味着智能体也受到限制。随著时间的推移，GPT-5-5等具有较高推理能力的新前沿模型、Gemini 二等)将使智能体更加先进。

应用智能体

现在，开发者表示，最好的智能体都是高度定制的。在适当的约束下，开发者正在研究哪些用例在当前状态下有效，并将这些技术应用到他们的工作中。尽管存在局限性，但智能体仍在飙升。有时候，终端用户会意识到它们的存在，例如Slack上的编码智能体。在其他UX抽象层下，如输入框、电子表格或画板等，智能体也会越来越被埋没。

例如，Matrices是一家成立于2024年的电子表格应用企业。Matrices建立的电子表格可以代表客户自动执行工作。例如，用户想在A1中推断用户想根据行和标题执行。:在J100单元格中输入哪些信息，然后搜索网络并分析网页以找到每个数据。UX和Excel(1985年推出)甚至Visicalc(1979年推出)Matrices的关键电子表格没有太大区别。但是，Matrices的开发者可以借助1000多个智能体，对每一行、每一列甚至每一个单元格进行独立的多步推理。

以Gradial为例，它是一家成立于2023年的营销自动化企业。Gradial允许数字营销团队自动化他们的内容供应链，帮助建立资产组合，实现内容更新，并在各种渠道之间建立/转移页面。Gradial提供了一个聊天界面，但是在JIRA或Workfront等跟踪系统中，Gradial也可以满足市场营销人员当前工作流程的需要。营销人员不需要将高级任务分解为单一动作。相反，Gradial智能体已经完成了这些任务，并且代表市场营销人员在后台实现目标。

今天的智能体当然有许多局限性。他们经常犯错误。他们需要被管理。运行过多的智能体验会影响带宽、成本、延迟和客户体验。开发者仍然在学习如何有效地使用它们。但是读者应该注意到，这些限制反映了人们对基本模型的抱怨，这是正确的。AI智能体的验证、投票、模型集成等技术增强了近期GenAI总体所展示的内容:开发者正期待科学和工程的快速改进，着眼于未来的建设。我上面提到的这座“半成品桥”正在加速前进，假设它会很快完成。

为智能制造商提供基础设施支持

这一切都意味着我们的行业需要努力建立一个支持AI智能体及其所依赖的应用基础设施。

如今，许多智能体几乎完全垂直集成，没有太多的代管基础设施。这意味着:智能体自我管理的云主机、用于内存和状态的数据库、从外部来源获取上下文的连接器、使用外部API的所谓函数调用、工具使用或工具调用。一些开发者使用像LangChain这样的软件框架(特别是Langsmith)来拼接物品。由于开发人员迭代速度快，而且他们觉得自己需要端到端来控制自己的产品，所以今天这种堆栈效果最好。

但是，随着用例的巩固和设计模式的改进，未来几个月的情况将会发生变化。在定制智能体和专业智能体方面，我们仍然处于时代。所以，短期内最有用的基础设施就是那些能够满足开发者的需要，并且让他们建立自己控制的定制智能体网络的工具。这类基础设施也能具有前瞻性。随着时间的推移，推理能力会逐渐提高，前沿模型会引导更多的工作流程，开发者会希望致力于商品和数据——这些让他们与众不同的东西。她们希望底层平台能“无缝运行”，具有可扩展性、性能和可靠性。

的确，当你这样看待问题的时候，你会发现已经形成了一个丰富的生态系统，为AI智能体提供基础设施。以下是一些关键主题:

特殊的智能体开发工具

像Flowplay一样、Wordware和Rift等工具支持常见的设计模式(投票、集成、验证、“团队”)，这将有助于更多的开发者理解这些方法，并将其用于构建智能体。基于这种强大的智能体技术，解锁下一波应用程序最重要的基础设施之一可能是一个有用且有指导性的开发工具。

智能体就是服务

开发者可以选择购买而不是构建特定任务而定制的智能体作为基础设施。这种智能体提供自定义功能，例如 UI 自动化（Tinyfish、Reworkd、Firecrawl、Superagent、Induced和Browse.ai）、工具挑选（NPI、Imprompt）以及创建和工程提示词。有些客户最终可能会直接使用这些智能体，但是开发者也会通过 API 浏览这些智能体并将其组装成更广泛的应用程序。

浏览基础设施

阅读网页并采取行动是关键的优先事项。开发者通过让智能体和API来使用API。、SaaS应用程序与网页互动，使其智能体更加丰富。API接口比较简单，但是网站和网站 SaaS 浏览、导航、分析和抓取应用程序非常复杂。这样做促使可以使用任何网页或网页。 Web 应用程序，就像使用一样 API 以结构化的方式浏览相同的信息和功能。它需要管理连接，智能体和验证码。Browserbase 、Browserless、Apify、Bright Data、Platform.sh和Cloudflare Browser Rendering就是在这个领域拥有产品的公司的例子。

个性化记忆

提供共享内存并确保每一个模型都能浏览相关的历史数据和前后文，在智能体在多个模型之间布置任务时变得重要。Pineconecone向量存储、Weaviate和Chroma对此非常有用。然而，出现了一种具有补充和指导功能的新型公司，包括WhyHow和Cogneeee。、LangChain的一个功能叫做LangMem，以及一个流行的MemGPT开源项目。这类企业展示了如何为终端用户和当前前后文的个性化智能体记忆。

智能体授权

这类智能体代表终端用户与外部系统的交互，并代表智能体管理身份认证和授权。现在，开发者使用它 OAuth 在某些情况下，令牌允许智能体模拟终端用户(需要谨慎)，甚至要求客户提供 API 密匙。但是用户体验和安全隐患非常严重，并非所有网络都支持。 Oauth（这便是 Plaid 金融服务领域存在的原因)。Anon.com 、Mindware和Statics.ai是开发者大规模需要的三个例子：智能体自身管理身份认证和授权。

“智能体的 Vercel”

采用无缝管理、编排和扩展智能体代管的分布式架构。现在，智能代管(E2)b.dev、Ollama、Langserve）、持久性（Inngest、Hatchet.run、Trigger.dev、Temporal.io）和编排（DSPy、AutoGen、CrewAI、Sema4.ai、LangGraph）有一组不同的集合。一些平台（LangChain 与Griptape)为这些事物的差异组合提供托管服务。为应用程序开发人员提供具有持久性和安排功能的可扩展托管一体化服务，这意味着开发人员可以致力于他们想要解决的问题，而不是在多个抽象层面(应用程序和智能体)思考。

未来构建人工智能智能体基础设施

人工智能基础设施的发展还处于起步阶段。今天我们看到的是一系列的运营管理和开源工具，还没有商业化或者整合到更广泛的服务中。而且，谁是最后的赢家还远远不清楚。 —— 这一领域，最终的赢家今天可能还年轻，也可能还没有存在。所以，让我们开始行动。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

紫晶存储因欺诈发行退市后，被券商、律师事务所等联合追偿10.86亿元。

古茶IPO，被“7-11”方式拖着腿？| IPO前瞻

传统汽车公司渠道加速崩溃：代理失控，直接运营颤抖。

没有踢足球，中国如何赢得欧洲杯？

贾玲代言Lululemon，为什么不穿瑜伽裤呢？

项目推荐

康小虎 · 健康小屋

毛加健康

康老板 · 氧疗堂