你们需要的不是智能体,而是工作流程。
下面的文章来源于赛博禅心 ,作者宝玉 xp
在 AI 在技术飞速发展的今天,智能体(AI Agent)概念备受关注,被一些人视为解决复杂问题的万能钥匙。但是,智能体并不是万能的,它的应用需要与实际问题和工作流程设计联系起来。本文深入探讨了智能体的本质以及如何设计。 AI 有效地解决工作流程中的问题。
———— / BEGIN / ————
如今 AI 智能体(AI Agent)这个概念非常流行,好像智能体是用来的。 AI 解决问题的银弹可以用智能身体解决很多问题。然而,许多人有不同的看法。他们认为智能身体只是噱头,没有看到可靠的应用领域。
吴恩达老师写的一个多智能体翻译的例子很多。简单来说就是用三个智能体:一个直译智能体,一个审核智能体,一个意译润色智能体,真的可以大大提高翻译质量。但是提高翻译质量并不一定要有三个智能体,我之前也提出过基于三个智能体。 Prompt 翻译方法,让 LLM 使用直译进行翻译 反思 三步导出意译,也能得到高质量的翻译结果。
本质上,使用大语言模型(LLM)解决问题,思考链(COT, Chain of Thought)这是一种有效提高生成质量的方法。换句话说,翻译质量之所以能提高,不是因为有智能身体,而是因为有思维链。思维链的每一个环节,无论是使用独立的智能身体还是导出步骤,都没有本质的区别。
其实大多数 AI 应用领域都差不多:应用领域 AI 要解决这个问题,核心不在于智能体,而在于设计一个适合的。 AI 的工作流。
那怎样才能设计出合适的设计呢? AI 工作流程怎么样?有几个因素我认为应该考虑:
不要局限于人类目前的计划
有时我们太将军了 AI 拟人,会不自觉地用人类解决问题的方法来应用。 AI 事实上,有时确实有效,但很多时候并不一定是最优解。
就像专业的翻译一样,他们不需要直接翻译和反思三个步骤。他们可以一步到位,直接导出高质量的翻译结果,所以一开始就让。 AI 翻译,Prompt 翻译结果全部直接一步导出,而非分步导出,翻译结果较为生硬。
而且当我们发现思维链是一种有效的大语言模型提升方法之后,就可以制作出更适合的方法。 AI 工作流程,分几个步骤来解决问题。
包括我看到的一些智能体项目,尝试模拟人类软件开发的分工,尝试利用项目经理、产品经理、架构师、程序员、测试等智能体角色处理复杂的软件项目。也是太拟人了,不一定适合。 AI 解决问题的想法,所以也只能出现在文章中,很难在实际项目中落地。
相反像 GitHub Copilot 这种帮助生成代码的工具真的很适合现在。 AI 程序编程的工作流程,可以真正提高开发效率。
不必完全依赖 AI 做决策
去年有一个超级火爆的项目叫做 AutoGPT,也就是你输入了一项任务,GPT-4 分解任务,制定计划,调用外部工具,例如 Google 搜索,甚至执行代码,最后完成任务。
这也算是 AI 其中一个是智能体的先驱项目,但是现在已经很少有人提到了,因为现在, AI 智力水平,还不足以对开放的任务做出可靠的决定,最终除了帮助之外, OpenAI 卖了很多的 Token 除此之外,还没有解决任何实际问题。所以现在 AI 应用的主流是把握 AI 当"副驾驶(Copilot)",只是让 AI 帮助人类实现目标,主要是人们在做决定。
另外还有自主设计工作流程,让步 AI 完成一些工作流程,不要过分依赖工作流程。 AI 做决定,或者只是做一个简单的决定。
比方说商家借助 AI 处理差评工作流程:
程序抓取评论信息
AI 对每个评论的情绪进行分析,选择差评
AI 生成回复(可能需要人工审核)
它是典型的设计流程,适合设计流程。 AI 的工作流,AI 只要做一个简单的情绪分析和回复,不需要做出复杂的决定,这样的工作流程就能很好地提高效率,而且结果也比较可靠。
可结合多种多样 AI 或工具
去年起 AI 大热的一个重要原因是大语言模型的出现。一方面,这些模型确实能力强,实用性强,推理能力简单;另一方面,它们很容易使用,无论是通过聊天机器人还是通过。 API 调用,都可以很方便的使用。即使像我这样不是人工智能专业的人,也可以很容易地使用这些模型。
但在此之前,人工智能是一个门槛相对较高的行业,需要筛选数据、训练和参考,非专业人士很难使用。
但是这也造成了一个问题,就是有些解决方案过于依赖大语言模型,而不知道或者不会使用其它领域。 AI 模型,但是当你能根据任务,把不同的领域 AI 将模型或工具结合起来,制作出合适的工作流程,就能得到更好的解决办法。
回到问题的本质,AI 只是锤子
上面提到的几点都是一些容易犯的错误。之所以容易犯这些错误,恰恰是因为我们有时过于关注一些流行的概念或技术,而忽略了需要解决的根本问题是什么。 AI 变成了目的而不是方式。如果你对马斯克的第一原理有所了解,那么它强调的是回归事物最基本的条件,分析它作为各种要素的解构,从而找到实现目标最佳路径的方法。
而且一般采用第一性原理有三个步骤:
第 1 步骤:明确定义你要解决的根本问题。
第 2 步骤:拆解问题。
第 3 步骤:重新开始建立解决方案。
而且这个想法也适用于每个人的帮助。 AI 解决问题,制作出适合的方法。 AI 的工作流。
举两个合适的设计 AI 工作流程解决问题的例子
一个例子是 PDF 转 Markdown。
做过 PDF 有经验的翻译,要获得良好的翻译效果, PDF 内容整理成 Markdown,再次进行大语言翻译,效果相当不错。但是这并不容易做到,因为 PDF 这是一种用于打印的格式,而不是结构化的数据,很难直接提取成为 Markdown,再加上各种图表、表格等,更加复杂。
最近看到一个项目叫做 PDFGPT,它做得非常巧秒,本质上是基于它。 GPT-4o 和 PyMuPDF 设计了一个工作流程:
用一个 PDF 操作库 PyMuPDF 检验 PDF 图片、图表、表格等。在中间,提取成图片并上传
每一页 PDF 生成图片,用红框标记图片、图表、表格等部分,并附上相应的图片名称。
借助 GPT-4o 视觉能力,分析标注后的图片,生成相应的图片。 Markdown
如果纯粹依靠大语言模型,恐怕完成不了这样的任务。一方面受前后文窗口长度限制,一次处理不了多张。 PDF,另一方面,照片、图表、表格等内容不能嵌入。 Markdown 中间。如结合 PyMuPDF 这种仓库和一个简单的工作流程,可以方便地实现。 PDF 转 Markdown,结果也相当不错。
另外一个例子是漫画翻译。
有很多泡泡字符的漫画。如果你想把它们翻译成其他语言,你需要提取泡泡字符,然后把它们翻译回来。漫画翻译的难点在于:
因为漫画中气泡文字的位置不固定,有时还会有重叠,难以提取;
在翻译过程中,如果只是字面翻译提取出来的文字,但是不知道当前图片的内容,翻译的结果可能会不顺利;
翻译后要对图片进行处理,抹去原来的文字,把翻译后的文字放回原来的位置。
要是手工做会怎么样?也许是看漫画,翻译,然后使用 Photoshop 这类工具抹去原来的文字,然后放上翻译后的文字。想象一下,这样的工作量还不小。
还有一个开源项目 comic-translate,做得很好,它还设计了一个适合漫画翻译的工作流程:
1)使用专业模型进行气泡检查,找出文字气泡的位置。
2)用 OCR 提取气泡中的汉字
用专业模型去除气泡中的文字。
4)借助 GPT-4o 根据漫画内容,视觉能力,翻译气泡中的文字。
用程序将翻译后的文本绘制到原来的气泡位置。
若不考虑翻译质量,这几乎是一个全自动的工作流程,效率相当高,成本也很低,最昂贵的部分是 GPT-4o 的 API,一页也才 $0.02 上下。即便加上人工审核对翻译结果和图片生成结果的处理,也可以比以前的人工翻译效率更高。
从上面的例子可以看出,真的要用好。 AI,让 AI 充分发挥效率,核心是基于你要解决的问题,重新设计一个适合你的问题。 AI 工作流,让 AI 完成它在工作流中最擅长的工作,至于是否是智能体,是否是大语言模型, AI 帮助你做决定,并非最重要的。
———— / E N D / ————
作家:赛博禅心
来源微信微信官方账号:赛博禅心
品牌推广| 内容编写|广告营销|培训合作
请到微信官方账号后台回复 合作
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com