NPC有望自主思考?研究者用25个智能体创造出一座虚拟小镇
NPC 是游戏中必要的组成部分,相应地,玩家也经常吐槽 NPC 们像是复读机,只能简单重复固定的对话或演出,在一些极端状况下,NPC 演出与剧情不匹配甚至会给人带来割裂感。
要改变这种情况,以前需要开发者们投入更多时间、精力,设计更复杂的脚本和更多对话。尽管随着技术发展,这类情况整体来说有所改善,但很难从根源上解决问题,哪怕是前段时间颇受关注的 "AI 编剧写作工具 ",也仅是帮助编剧从 AI 生成的对话和场景中做出选择,并不能真正赋予 NPC 自主行动和交流的能力。偶尔,我们也会畅想 " 当玩家不在的时候,NPC 们都会做些什么 ",但我们也知道,那是一种艺术上的想象,并非真实。
然而,假如这个构想也能成真,让虚拟角色拥有思考、记忆等等能力,让他们像个活人一样在虚拟世界里生活、工作、社交,又会变成什么样?
不久前,美国斯坦福大学和 Google Research 的研究者们发表了一篇相关论文,很快引起了关注。按照论文的描述,研究者们在一个类似沙盒游戏的场景中成功构建了一个小镇,小镇里有 25 个生成式智能体(Generative Agent)。在论文附上的 Demo 中,智能体们能通过基于 ChatGPT 3.5 的大型语言模型生成可信的行为,在小镇中模拟人类的生活方式,自主完成基本的日常活动和社交,甚至共同参与了一个情人节派对。
研究者给生成式智能体的定义是:他们能对自己、其他智能体和他们身处的环境进行多样化的推断;他们能制订反映自身特征和经验的日常计划,执行这些计划,作出反应,并在合适的状况下重整计划;在终端用户(在论文中即为研究者与测试者)改变他们的环境或用自然语言下达命令时作出反应。
25 位生成式智能体开始了他们的一天
为了方便理解,也更贴近游戏的语境,我们暂时将这些智能体称为 NPC。
论文中提及的小镇由几幢功能完备的住房和一些社交场所组成,包括咖啡馆、酒吧、学校、宿舍和房屋。每个建筑内都有相应的可互动物品,比如炉子、水池、衣柜、书桌等。
研究者会赋予每个 NPC 一个基础人设,他们的日常行为都围绕这个基础人设进行。比如 Abigail Chen 是一名艺术家,正在为一个动画项目工作,旨在激发低收入人群的创造力。所以,她除了花大量时间进行动画制作外,还会与擅长写作的另一位 NPC 讨论合作事宜,也会与其他 NPC 交流如何更有效地推广她的理念。除了基础人设外,这些对话和关系的构建均由 NPC 自主生成。
终端用户也能用自然语言直接控制小镇中的场景和人物行为。比如,研究者可以设定两位 NPC 互相爱慕,并要求另一位 NPC 举办派对。研究者也可以让房屋中的某个用品损坏,观察 NPC 的反应。
每个 NPC 对当天的生活都有自己的规划
在论文中,研究者从两个方面对这些 NPC 的行为进行观察和记录,并对这些行为的合理性作出评估。
第一,评估他们是否能在独自行动时作出可信的行为,比如模拟人类每天早上起床做早饭、洗漱、吃饭,然后换衣服出门的过程。
第二,评估他们能否在一定时间内(研究者取用了小镇中 2 天的时间)与周围的其他 NPC 和环境进行合理交互,甚至彼此合作,构建新的关系。比如,洗手间被占用时 NPC 会在一旁等待,发现水龙头漏水时 NPC 会尝试维修。在对话当中,NPC 应当根据自己被设定的基础人设对答,并且记住在此前的对话、互动中获得过的信息,在行为上具有连贯性。
其中,保证行为的连贯性这一点比较困难。因为 NPC 并不存在真正的 " 记忆 ",可能会忘记基础人设之外的环境给自己带来的改变。所以,研究者构建了一个 " 记忆—计划—反思 " 的框架模型。
准确地搜索和调取记忆流中的数据是件很有技术含量的事
在这个模型中," 记忆 " 指的是 NPC 在感知到环境后,会把环境特征记录在记忆流中。在面临新状况时,NPC 会对记忆流中的数据进行检索,根据检索到的结果进行推理,再决定如何反馈。
模型中的 " 计划 " 是指,NPC 会先把当天的大致计划(比如起床、上课、完成作业、睡觉)储存在记忆流中,再把计划分解成各种细化的行为,以便根据实时状况调整计划。
" 反思 " 则是一种更高级的记忆,促使 NPC 通过已知数据推断,形成更高级的思维。用以反思的数据不仅可以来自当事 NPC 自己的观察,也可以来自其他 NPC 的观察。
具体来说就是,首先,研究者需要让 NPC 确定反思的内容。举个例子,研究者在 Demo 中用大型语言模型查询记忆流中的 100 条最新记录,其中包含 "Klaus Mueller 正在阅读一本关于城市化的书 ""Klaus Mueller 正在与图书管理员谈论他的研究项目 "" 图书馆的桌子目前没人在用 " 等数据。
接下来,NPC 需要思考根据这些信息能问出哪些比较高级的问题,比如:"Klaus Mueller 对什么话题充满热情?" "Klaus Mueller 和 Maria Lopez 之间的关系是什么?" 最终,NPC 也许会在反思后得出结论,认为 Klaus Mueller 正在致力于他对城市化的研究。这相当于这名 NPC 对 Klaus Mueller 产生了新的认识,今后他们也许会围绕这一认识在与 Klaus Mueller 的交往中作出反应。
" 反思 " 能让 NPC 通过已有数据得出一些更高级的结论
总之,这篇论文和 Demo 用沙盒地图和 ChatGPT 中的语言模型,构筑了一个看起来像模像样的虚拟小镇以及当中的虚拟居民。虽然居民的活动范围不大,生成的交互类型与事件也比较简单,但人们已经能通过它看到虚拟人物自主生活、自主交往的雏形。在 Demo 中,NPC 们的种种反馈都是由基本的寻路移动和文字形式给出的,效果还比较简陋,但它展示出的可能性显然难以估量。
按照这个逻辑发展下去,我们很难不联想到一些科幻片式的问题,诸如 " 创造一个全部由 AI 组成的虚拟世界,成熟后与真实世界对接 ""《失控玩家》或者《西部世界》里的游戏世界会不会成真 "" 这算不算高维生命创造了低维生命 " 之类的——在此之前,其实已经有许多艺术作品讨论过类似的东西了,也沿着这些思路虚构和想象了一些情节和场景,有喜有忧。一旦这样的想象成为现实,真正的发展方向目前其实还很难轻易判断。
不过,这些应用对游戏开发者和玩家们来说是相当熟悉的。这篇论文展示出的前景可以让未来的开发者们更加智能、更加真实地生成游戏中 NPC 的行为。假如相关技术再成熟一些,开发者也许就可以像论文中的研究者一样,只需要用自然语言输入一系列设定,NPC 们就能自动根据玩家的行为以及玩家对周遭环境的改变作出反馈。
这篇论文发表后得到了大量的关注,也许从侧面上说明了人们对这种活生生摆在眼前的虚拟乐园的赞叹与惊诧。更何况,论文中使用的是 ChatGPT 3.5 语言模型,随着版本迭代更新,未来还有很大进步空间。至少在游戏领域,人们对更生动、更丰富的虚拟角色的交互始终有着旺盛的需求,甚至可以说有一种浪漫化的、真情实感的憧憬——这篇论文中的实验也许是一个好的开始。
最后附上论文和 Demo 的具体网址,论文中对如何实现这些功能有相当详细的描述,有兴趣的读者可以进一步自行研究。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com



