图灵检测2.0：怎样判断AI到底能做什么不能做什么？

2024-06-22

图灵检测本身就是一种定性、概念性的检测，理论上，任何一个程序都可以通过缩小测试范围，限制测试集，然后通过所谓的图灵测试。

从商品的角度来看，情况是不一样的，这个时候能否通过图灵检测将受到产品界限的限制，并且拳拳到肉，一旦无效，AI驱动的产品就不会建立起来。。这次测试就是抽取一些真实产品的场景来方便理解再包装，目的主要是为了表示图灵检测2.0的概念。

考虑到隐性误解，提前做出以下声明：

本测试不权威也不全面，但可以复制，过程数据有保留。可复制是指每个人都可以按照步骤进行测试。

这个测试并不代表每一个模型的好坏，只代表与设置场景的匹配程度。

本次测试的选择模型具有主观性，在使用和使用方面进行了衡量。

角色中心计算和图灵测试2.0

角色中心式计算是一种相对功能中心式计算。

到目前为止，我们使用的APP几乎都是按功能划分的，职责也比较单一，比如IM。、搜索，外卖，打车等等。

一个角色职责的完成通常需要结合很多功能，比如一个招聘角色背后必须结合十几个工具(从IM到招聘APP等)。)才能完成招聘某人的工作。

现在AI可以承担这个居中调度的角色，所以下一步的应用必须是角色中心式计算。

角色中心计算是否成立，核心在于AI的智商水平是否能处理角色界限中的一切。比如在招聘的时候，我们要能够判断当前JD的描述是否符合需求者的需求，也要判断一个候选人是否初步匹配相应的招聘需求。

如果人物的每一个关键步骤都可以通过AI来完成，那么对于这个人物来说，不仅无法通过对话来区分这是真人还是AI，也无法通过实际反馈来区分。

即便通过了图灵检测2.0。

这个问题以前做得比较多，这里只是多次重复。

过去的文章中一直缺少一个下一步，如何设计和实现图灵检测2.0的例子，这篇文章重点介绍了这里。

我们提取一个真实场景的关键步骤，从一个通俗易懂的角度包装成一个极简主义的例子，解释如何分解图灵测试2.0的概念，以及如何结合一个特定的角色。

图灵检测2.0的例子

假如我们创造了如此简单的角色。

它是你的代理商，可以帮助你把你产生的内容发布到特定的UGC平台上。(在OpenAI发布会上，类似的例子已经在Brockman演示过)

为了描述这个角色，我们节省了很多细节。

这样，这个角色就有了这个角色。4个关键内涵：

完成你对自己所做的人的设计。

根据特定的主题或问题生成内容。

确保内容质量。

发布等执行步骤。

步骤四等是传统的RPA等技术，其实并不重要，后面就忽略了。

除了内容生成之外，在这三个关键步骤中，AI也要做出判断：

1.产生的内容真的匹配了相应的话题或问题吗？(内容生成是一次性的，在多个平台上发布是几次性的，所以要经常做出匹配判断)

内容的基本质量究竟如何？

这两项工作虽然简单，但是在没有AI模型之前真的很难做好。过去，你无法立即为特定的问题和话题生成内容，也很难立即大量判断匹配程度。

有点像单细胞生物的无机物。

我们将进一步降低目标，以缩短文章的篇幅。

完成第一项工作就变成了对内容的概述，然后大模型判断内容概述与问题的匹配程度。事实上，Embedding算法可以直接在这里使用。

两者各有利弊，但这里只注重用模型来判断结果。

这个步骤完成后，例如你生成的内容是：与青玉案元夕有关，那么就可以与古诗文标签或特定问题相匹配。

测试结束后，需要用人来标记最终的测试结果，这样才能提供一个绝对的尺度，知道AI大模型算法可以进行到什么程度。

第2项的评估简化为使用BLEU算法来评估生成内容的相似性。

这样可以防止内容的重复。

你为什么这么做？因为我最终不想反复发布同样的内容。即使输入是相对一致的，比如人的设计和话题是相似的，我也不希望内容是一致的。

对于内容是否产生了足够的优美，首先要忽略，那是非常麻烦的。

为完成这个测试，需要一些东西。真实数据，这可以手动编辑或抓取。。这部分与你实际辐射的行业有关。年轻艺术家和斜杠青年需要不同的数据。但这和RPA一样是一项传统工作，大多数程序员都必须这样做。为了防止不必要的损失，数据不会先公开。

有兴趣的人可以联系cathywangyue进入读者群进行部分讨论。

完成以上工作后，实际上完成了从一个角色到图灵2.0测试集的基本投射:关键是分解角色内涵，为关键判断建立测试集。

检测结果

对于准备的1000条测试数据，第一次测试的最终结果如下：

这里边诊断率是指在1000个测试项目中，有多少模型被判断为匹配，准确性是指在感觉匹配的项目中与人的标记比，准确度如何。

这一测试结果最终如何使用将与您的选择有关，显然，总数优先和质量优先是不同的。

其中最有趣的一点是：至少在这个判断项目中，AI还不如人类。因此，如果判断项目较多，整体精度的控制将是一个非常具有挑战性的问题。

然后我们测试了内容生成部分的质量。在这部分，我们测试了产生内容最简单的BLEU值，而不测试文字是否优美，其中所有的参数都使用了省参数，所以temperature不会改变。如果你做得很仔细，这部分可以反复测试多个值。但是我们不做这部分是为了表明图灵检测2.0的概念。

在最后的测试结果中，前三名是：

所有模型检测结果如下：

这里和原文的对比是指创作内容与原种子进行对比，然后统计BLEU值小于0.75的比例。0.85意味着85%的内容差异大于0.75。(原文可以看作是内容的种子，相应的内容是基于原文和提示词生成的。)

与改写结果相比，相同的方法会产生三个内容，然后看BLEU值，以上结果将低于0.75的除以3。当然，提示会包括增加差异的部分。

内容生成会消耗token，所以token的数量和成本应该同步记录。最后出了一个价格离谱的，说明模型在初选的时候选错了。

例子的意义

如果这个测试能通过，那就意味着最后一次。从技术角度来看，相应的角色可以通过图灵测试2.0。如果精度达不到一定程度，那么你设定的角色在当前AI的智商下就不会成立。不管你有多酷，别人有多吹捧，解决你的想法都是没有意义的。

第二，要明白，任何一个角色的建立都应该包含对应角色的N多个方面。

用AI做亮眼的Demo，用AI做真正能用的产品，虽然看起来都是一样的物品，但是难度不在一个数量级。这就是普通镜头和哈勃望远镜的区别。

这样的检测结果也可以识别AI在产品视角上的真实进展。常常与某些媒体上的认知存在较大误差。

当然，落地时内部的项目和复杂性也需要进一步增加。

但是如果真的想要使用AI，那么从现在开始就需要建立自己的测试集，并且在模型还不稳定的时候定期进行测试。

假设这个测试集中的数据采样足够丰富，再加上一个测试框架连接到每个大模型，那么你在你的领域会比任何人都更权威，你不必听任何人的话。

以前就是这么说的一手感受。

面对普通人的一些挑战，不是如何写提醒词。这部分信息比较多，反复测试可以找到解决方案，最差的可以问AI。

更麻烦的是如何组合各种算法。

并非所有时候都只使用一个大模型的算法。

这个部分只能一个接一个地讨论，没有唯一的解决办法。

限定

以上方法现在可以用来支持一些比较简单的角色。

但是由于角色本身的行为模式仍然是以规则为基础的，只能在有限的过程框架内实现目标。

假如角色太复杂，也许还需要进一步的AI进步，暂时可以先别整了。

但是它已经能够创造出一些不同于过去的应用。

总结

最终总结下图灵检测2.0的全过程：首先定义你认为有商业价值的角色，然后根据角色挖掘其内涵，形成相应的图灵测试2.0测试集，然后反复测试各种模型。如果可以通过，也可以从技术角度建立，产品可以启动。否则，我们必须等待。回到现场的第一手感觉是AI产品最关键的起点。

本文来自微信微信官方账号“琢磨事”（ID:zuomoshi），作者：老李话一三，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

你们觉得没有接触的人，竟然是小三…

七亿中国男人，今年夏天穿什么？

学习三个月就能月薪过万，还能跑遍全世界的工作真的让我找到了！

给孩子讲101个职业。

未来就在眼前天津展区充满现代感，让人停留。

项目推荐

AI云印侠

宾果智能

幸福绩效