AI发了人类历史上第一个红包。
文|邓咏仪
编辑|苏建勋
十一月二十九日,Open智谱AI 在Day上,气氛达到顶峰的那一刻,无疑是智谱CEO张鹏举起手机,对AI说:帮助我在智谱开放日的群聊中发送20,000个红包,名字叫“AI给你发的第一个红包”。
随后,AI迅速调用微信,并打开红包开发功能,成功发布。
智谱AIAI不仅仅是一个ChatBot(聊天机器人),一个语言模型,更是一个模型参数。 CEO张鹏说。

△来源:智谱AI
它还可以解释为什么要进入2024年,Agent(智能体)风吹得越来越猛——包括谷歌在内的全球巨头纷纷推出自己的Agent产品,在百度、阿里、字节等国内。
业界普遍认为,2025年将是 Agent 爆发的时候。Gartner将在不久的将来 agentic AI 列入 2025 年度十大技术趋势之一,并预测 2028 每年至少有15%的日常工作决定将由 agentic AI 独立完成,而这个数字,在2024年是0。
Agent(智能体),可以理解为AI代理,帮助人类完成某些过程性软件操作。
用一句话,张鹏总结了AI。 Agent的本质:“我们不断思考大模型的“序列预测”意味着什么,如何高效应用。如果预测方法不限于语言文本,而是扩展到图像视频甚至操作序列呢?”
AutoGLM的本质是完成操作序列,或任务。
AutoGLM的形式是App。、Web、电脑端的助手。在今天的发布会上,智谱正式发布了与这三个端相对应的产品:
AutoGLM ,可自行超越执行 50 步长步骤操作,也可跨越步骤 app 出任务
AutoGLM,打开「全自动」网络新感受,支持等数十个网站的无人驾驶。
GLM-PC ,像人一样操作计算机,正式启动内部测试,基于视觉多模式模型探索通用Agent
一个月前,智谱发布了AutoGLM的内部测试,本月有超过100万用户访问。Demo可以在微信、淘宝、美团、小红书等App上操作,可以完成包括发红包、用支付宝点咖啡等操作。
在今天的新闻发布会上,AutoGLM的能力非常强——支持的App增强了抖音、微博、JD.COM、拼多多等App,更重要的是,跨App可以完成。、跨端操作。

△查餐厅 预订情景 来源:智谱AI
举例来说,在现场demo中,智谱清言插件自动执行了“搜索芒果tv,打开巷子里的其他人,播放最新一集,打卡弹幕结局”。整个过程没有人干涉。
AutoGLM在另一个购买火锅食材的例子中独立执行了54步操作,并且中间没有中断。当多步、循环任务时,AutoGLM 速度表现也超过了人工操作。

△来源:智谱AI
张鹏还用手机调用微博,模仿人类操作,打开明星微博首页,在微博上留下一条评论——AI也顺利完成。
但是在PC上,可以完成更多的日常任务,包括帮助用户预订和参加会议,发送会议总结;支持文档下载、文档发送、理解和总结等。

△来源:智谱AutoGLM
此外,还支持跨应用信息的搜索和总结——比如在规定的平台上搜索指定的关键词(如微信微信官方账号、知乎、小红书等。),完成阅读和总结。
看似简单,但Agent可以完成这些操作,涉及的操作和权限非常复杂。比如微信里面有严格的反爬虫机制,一旦机器人被识别出来,就很容易被封杀。小红书的帖子甚至很难复制内容——之前的一般操作是客户先截图,然后用其他软件提取文字。
Agent不是一个新的技术词汇,而是早在几十年前就出现了。
在iPaaS之前,我希望机器能帮助人类完成软件工作。、RPA(Robotic自动化机器流程 process automation,简称RPA)、或BPM(流程优化)等更传统的跑道,都在探索过程性、重复性的工作。
但过去的技术会面临很多影响准确性和可行性的因素,包括AI图像元素抓取不准确、每个软件Api开放度不高等问题。但是,大模型出现后,这些问题可以解决——大模型可以清楚地理解软件界面指向的是什么,识别错误的问题不会因为图像元素的轻微变化而发生。
AutoGLM项目负责人刘潇告诉《智能出现》,AutoGLM是代理客户操作的,基于“用户同意可交互界面”,其本质是模拟人类操作来调用-与原api调用、机器调用有根本区别。
毫无疑问,2024年热门话题包括身体智能和Agent。大型技术正在走出简单的模型层,改变机器与人之间的互动模式——基于理解、规划和决策、行动和自我反思,让机器更好地了解人,从而更好地实现目标。
它还与最近的Scaling相同。 大讨论形成了Law的映衬。
Scaling Law是促进大型模型迭代的重要规律。在ChatGPT出来后的两年里,大型模型制造商通常主要使用预训练模式——为模型提供更多高质量的数据,使模型达到一定规模后智能化。
但是,在今年9月OpenAI发布新模型o1之后,这意味着Scaling。 Law的一个转变是——从训练规模和参数较多的模型转变为训练后的主要模型,这样模型可以有更多的思考时间而不是参数,这样模型就可以思考更复杂、更困难的问题。

△ 来源:智谱AI
张鹏认为,今天发布的AutoGLM只是GLM模型大家族能力的“结束”,也是AI智能操作系统的开始和尝试。
Scaling不仅仅是“目前,我同意的一个观点是,计算量可能是关键,也就是有用的信息。”
“现阶段,AutoGLM 相当于在人与应用之间增加了一个调度层,大大改变了人机的互动形式。更重要的是,我们看到了。 LLM-OS 基于大模型智能能力的可能性(从 L1 到 L4 甚至更高),将来有机会实现原生人机交互。把人机交互的范式带到新的阶段。
下面是智谱CEO张鹏、智谱AutoGLM项目负责人刘潇的会后采访,经《智能涌现》整理:
智能涌现:比如像每一个大厂商,比如美团、Tikto微信,都要做自己的agent。比如我们发布这个AutoGLM之后,如何考虑生态位置。软件,包括一些端侧,其实中间的应用墙也很厚,包括一些底层的权限,不是那么容易打通的,就是如何解决这个问题。
张鹏:这一半是商业问题,一半是技术方面的问题。
刘潇:AutoGLM希望成为帮助我们更好地连接硬件、应用和服务的中心。它应该是一个工具,用户可以通过自然语言更容易地组合各种功能,并根据自己的个人想法做到这一点。
技术上相当困难。本来,如果他们能在原来的生态中获得数据,完成自己的设计,但这也是在一个封闭的平台上设计的。你不能很好地与他人合作,你的模型对我们的模型来说不够聪明,所以你不能更好地连接它们。
下一步,我们希望模型能够将每一个大厂使用的生态联系起来,这是我们下一步开发的重点。
张鹏:从商业的角度来看,每个人都是一种互利的方式,我们会有这样的底层生态,为每个人提供一个基本的平台。现在这些新制造商可以在这个平台上做你想做的事情。例如,他们自己建立的Agent系统可以连接到更多的其他平台。
Q:我想讨论一个基本的技术问题。为了完成复杂的业务流程,智能体需要激发大量的数据和应用。但是很多网站和APP都有自己的API,而且这些API不完全统一,缺乏标准化。这可能会让公司很难使用Agent。你会怎么做?
刘潇:AutoGLM,本质上,我们专注于客户的图形交互界面,这与API调用有着根本的区别。事实上,他模拟人类在使用它,而不是使用传统的API。
以前使用API的时候,比如昨天我们打通了应用程序,但是过了一个星期的新版本,就很容易失效。
然而,通过用户再次交互界面,这实际上避免了这个问题。因为只要这个界面还是人类可以理解的,它就可以适用于用户真正可以使用的软件界面。
Q:为什么去年大家都没怎么提Agent的概念,今年开始提?您认为满足了哪些要素?
张鹏:首先,关于去年讨论较少的问题,确实是因为我认为你可以参考我们之前的一些解决方案。包括我们提到的APP能力,其实是模型能力的体现。如果水平不够,可能达不到预期的效果。所以当时提到的问题是,因为你的能力不够,效果并不理想。
这个模型更多的是一个人机交互的场景,每个人都能感觉到。以前大家都是针对系统、开发等企业级应用的,所以之前大家都感觉不太好。
另一方面,随着技术的进步和关注度的提高,越来越多的软硬件制造商参与了适应。因此,这两个条件的满足让每个人都感觉更加明显。
Q:Scaling Law有没有放缓?您的态度是什么?如何找到智谱的解决办法?
张鹏:我们今天正在探索这条路径。例如,当语言遇到可能无法超越人类认知极限的情况时,我们能否突破这条线?这可能需要大量的数据和大规模的处理。
另外,在多模态方面,我们今天讨论的Agent可以尝试Scaling。实际上,还有许多值得探索的领域。
Scaling Law放缓只是一种现象,是我们最终看到的结果。这个系统的本质是什么?我们一直在讨论这个问题,寻找它的本质。
现在看来,我比较赞同的一点是:计算量可能是关键,也就是有用的信息。
预训练放缓了,但是后训练的曲线现在也有Scaling的效果,但是不会像预训练阶段那样简单的只看到信息量和参数的增加。
Q:刚看到agent的很多有趣的应用,但是和你刚才提到的生产力场景还是有一些差距的。如果你将来想用agent覆盖更多,比如50%、我们设备使用场景的80%,或者让他做更多的预训练以外的事情。那么下一步我们要做些什么呢?
刘潇:事实上,正如我们今天在新闻发布会上介绍的技术报告一样,现在预训练的Scaling Law,的确,在行业现阶段,由于数据问题,遇到了一些瓶颈。
但像o1这样的Scaling,实际上像AutoGLM本身代表了Agent这样的Scaling,开辟了一条新技术,并继续向上突变。
我们几乎找到了OpenAI。 o1 Agent显示在blog中。 Scaling Law的效果是一样的。因此,下一步实际上就是如何在这种模式的基础上更好地迭代。
预先训练还有空间,但是需要新的算法,框架,数据转换。
Q:大家年初的时候,大家To B To C有许多路线。To C有GLM OS、还有生产力的应用。现在To B还在做,C端收缩成Agent。以前的OS放弃了吗?
张鹏:我不认为这是放弃。探索的过程其实是一个不断尝试和犯错的过程,对吧?事实上,可以理解为,这是我们最初对Agent的理解,现在我们可以更具体地将Agent能力结束到现在。
我们认为这些能力的作用是巨大的,所以我们把它们形象化,并不意味着那些探索毫无意义。
事实上,我们以后可以看到很多东西。今天是操作手机和电脑,明天可能是操作你的数据库和企业数据生成分析报告等等。
每个人现在只是每天对这种事情的接受程度的认识比较容易,并不意味着就像To一样。 或者公司内部没有应用。
Q:从长远来看,Agent会主要通过当前的操作系统和硬件来呈现,或者新的硬件方式会出现。你是怎么想到这个问题的?在这件事上,一个简单的定位是什么?
张鹏:我认为我们的定位是一个开放的平台,来做这件事。
前面提到的硬件问题,首先,这是一个符合世界演变和发展规律的前进方向。
我们试着改造现有的物品。不管你的权限有多大,我们先来看看是不是他最简单最直接的方式。对于新的方向,比如有人尝试,比如一些AI硬件,比如AI。 Pin,AI Rabbit,这可能是下一代智能产品的体现。
在这一波AI的帮助下,我们也希望能产生更多的想象力,更快地孵化新的应用程序,我们也会帮助大家。
Q:整个大型行业。在我们看来,未来可能遇到的最大困难是什么?
刘潇:Scaling Law仍然非常有效和重要。我们不能随便放弃他。很多时候,当你觉得自己在某个问题上做不到的时候,就不是Scaling了 Law有什么问题,但是你认为这个问题很窄。
那么怎样才能真正从算法上进行创新和优化,这是根本。
人们总是高估技术的短期影响,低估技术的长期影响,特别焦虑,但如果你转过头,等待几个月,你会发现差别很大。
欢迎交流
欢迎交流
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




