图灵检测2.0:怎样判断AI到底能做什么不能做什么?

06-22 22:08

图灵检测本身就是一种定性、概念性的检测,理论上,任何一个程序都可以通过缩小测试范围,限制测试集,然后通过所谓的图灵测试。


从商品的角度来看,情况是不一样的,这个时候能否通过图灵检测将受到产品界限的限制,并且拳拳到肉,一旦无效,AI驱动的产品就不会建立起来。。这次测试就是抽取一些真实产品的场景来方便理解再包装,目的主要是为了表示图灵检测2.0的概念。


考虑到隐性误解,提前做出以下声明:


本测试不权威也不全面,但可以复制,过程数据有保留。可复制是指每个人都可以按照步骤进行测试。


这个测试并不代表每一个模型的好坏,只代表与设置场景的匹配程度。


本次测试的选择模型具有主观性,在使用和使用方面进行了衡量。


角色中心计算和图灵测试2.0


角色中心式计算是一种相对功能中心式计算。


到目前为止,我们使用的APP几乎都是按功能划分的,职责也比较单一,比如IM。、搜索,外卖,打车等等。


一个角色职责的完成通常需要结合很多功能,比如一个招聘角色背后必须结合十几个工具(从IM到招聘APP等)。)才能完成招聘某人的工作。


现在AI可以承担这个居中调度的角色,所以下一步的应用必须是角色中心式计算。


角色中心计算是否成立,核心在于AI的智商水平是否能处理角色界限中的一切。比如在招聘的时候,我们要能够判断当前JD的描述是否符合需求者的需求,也要判断一个候选人是否初步匹配相应的招聘需求。


如果人物的每一个关键步骤都可以通过AI来完成,那么对于这个人物来说,不仅无法通过对话来区分这是真人还是AI,也无法通过实际反馈来区分。


即便通过了图灵检测2.0。


这个问题以前做得比较多,这里只是多次重复。


过去的文章中一直缺少一个下一步,如何设计和实现图灵检测2.0的例子,这篇文章重点介绍了这里。


我们提取一个真实场景的关键步骤,从一个通俗易懂的角度包装成一个极简主义的例子,解释如何分解图灵测试2.0的概念,以及如何结合一个特定的角色。


图灵检测2.0的例子


假如我们创造了如此简单的角色。


它是你的代理商,可以帮助你把你产生的内容发布到特定的UGC平台上。(在OpenAI发布会上, 类似的例子已经在Brockman演示过)


为了描述这个角色,我们节省了很多细节。


这样,这个角色就有了这个角色。4个关键内涵


完成你对自己所做的人的设计。


根据特定的主题或问题生成内容。


确保内容质量。


发布等执行步骤。


步骤四等是传统的RPA等技术,其实并不重要,后面就忽略了。


除了内容生成之外,在这三个关键步骤中,AI也要做出判断:


1.产生的内容真的匹配了相应的话题或问题吗?(内容生成是一次性的,在多个平台上发布是几次性的,所以要经常做出匹配判断)


内容的基本质量究竟如何?


这两项工作虽然简单,但是在没有AI模型之前真的很难做好。过去,你无法立即为特定的问题和话题生成内容,也很难立即大量判断匹配程度。


有点像单细胞生物的无机物。


我们将进一步降低目标,以缩短文章的篇幅。


完成第一项工作就变成了对内容的概述,然后大模型判断内容概述与问题的匹配程度。事实上,Embedding算法可以直接在这里使用。


两者各有利弊,但这里只注重用模型来判断结果。


这个步骤完成后,例如你生成的内容是:与青玉案元夕有关,那么就可以与古诗文标签或特定问题相匹配。


测试结束后,需要用人来标记最终的测试结果,这样才能提供一个绝对的尺度,知道AI大模型算法可以进行到什么程度。


第2项的评估简化为使用BLEU算法来评估生成内容的相似性。


这样可以防止内容的重复。


你为什么这么做?因为我最终不想反复发布同样的内容。即使输入是相对一致的,比如人的设计和话题是相似的,我也不希望内容是一致的。


对于内容是否产生了足够的优美,首先要忽略,那是非常麻烦的。


为完成这个测试,需要一些东西。真实数据,这可以手动编辑或抓取。。这部分与你实际辐射的行业有关。年轻艺术家和斜杠青年需要不同的数据。但这和RPA一样是一项传统工作,大多数程序员都必须这样做。为了防止不必要的损失,数据不会先公开。


有兴趣的人可以联系cathywangyue进入读者群进行部分讨论。


完成以上工作后,实际上完成了从一个角色到图灵2.0测试集的基本投射:关键是分解角色内涵,为关键判断建立测试集。


检测结果


对于准备的1000条测试数据,第一次测试的最终结果如下:


这里边诊断率是指在1000个测试项目中,有多少模型被判断为匹配,准确性是指在感觉匹配的项目中与人的标记比,准确度如何。


这一测试结果最终如何使用将与您的选择有关,显然,总数优先和质量优先是不同的。


其中最有趣的一点是:至少在这个判断项目中,AI还不如人类。因此,如果判断项目较多,整体精度的控制将是一个非常具有挑战性的问题。


然后我们测试了内容生成部分的质量。在这部分,我们测试了产生内容最简单的BLEU值,而不测试文字是否优美,其中所有的参数都使用了省参数,所以temperature不会改变。如果你做得很仔细,这部分可以反复测试多个值。但是我们不做这部分是为了表明图灵检测2.0的概念。


在最后的测试结果中,前三名是:


所有模型检测结果如下:


这里和原文的对比是指创作内容与原种子进行对比,然后统计BLEU值小于0.75的比例。0.85意味着85%的内容差异大于0.75。(原文可以看作是内容的种子,相应的内容是基于原文和提示词生成的。)


与改写结果相比,相同的方法会产生三个内容,然后看BLEU值,以上结果将低于0.75的除以3。当然,提示会包括增加差异的部分。



内容生成会消耗token,所以token的数量和成本应该同步记录。最后出了一个价格离谱的,说明模型在初选的时候选错了。


例子的意义


如果这个测试能通过,那就意味着最后一次。从技术角度来看,相应的角色可以通过图灵测试2.0。如果精度达不到一定程度,那么你设定的角色在当前AI的智商下就不会成立。不管你有多酷,别人有多吹捧,解决你的想法都是没有意义的。


第二,要明白,任何一个角色的建立都应该包含对应角色的N多个方面。


用AI做亮眼的Demo,用AI做真正能用的产品,虽然看起来都是一样的物品,但是难度不在一个数量级。这就是普通镜头和哈勃望远镜的区别。


这样的检测结果也可以识别AI在产品视角上的真实进展。常常与某些媒体上的认知存在较大误差。


当然,落地时内部的项目和复杂性也需要进一步增加。


但是如果真的想要使用AI,那么从现在开始就需要建立自己的测试集,并且在模型还不稳定的时候定期进行测试。


假设这个测试集中的数据采样足够丰富,再加上一个测试框架连接到每个大模型,那么你在你的领域会比任何人都更权威,你不必听任何人的话。


以前就是这么说的一手感受


面对普通人的一些挑战,不是如何写提醒词。这部分信息比较多,反复测试可以找到解决方案,最差的可以问AI。


更麻烦的是如何组合各种算法。


并非所有时候都只使用一个大模型的算法。


这个部分只能一个接一个地讨论,没有唯一的解决办法。


限定


以上方法现在可以用来支持一些比较简单的角色。


但是由于角色本身的行为模式仍然是以规则为基础的,只能在有限的过程框架内实现目标。


假如角色太复杂,也许还需要进一步的AI进步,暂时可以先别整了。


但是它已经能够创造出一些不同于过去的应用。


总结


最终总结下图灵检测2.0的全过程:首先定义你认为有商业价值的角色,然后根据角色挖掘其内涵,形成相应的图灵测试2.0测试集,然后反复测试各种模型。如果可以通过,也可以从技术角度建立,产品可以启动。否则,我们必须等待。回到现场的第一手感觉是AI产品最关键的起点。


本文来自微信微信官方账号“琢磨事”(ID:zuomoshi),作者:老李话一三,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com