利用AI对AI进行监督,OpenAI做到了用左脚踩右脚。
AI会因为幻觉而产生幻觉(AI Hallucinations)而且胡说八道这件事,已成为当前AI行业的共识。无论国内文心一言,Kimi、ChatGPT还是海外混合元。、Gemini,回答非所问,不合逻辑,甚至胡编的情况早就习惯了。针对这一情况,OpenAI作为行业领导者,拿出了新武器。在GPT-4的基础上,OpenAI公布了CriticGPT的新模型,主要用于捕捉ChatGPT代码导出中的错误。
根据OpenAI的说法,在基于人类反馈的强化学习基础上,通过CriticGPT的支持,(RLHF)在这一领域,人类培训师的审查效果比没有得到帮助的人强60%。OpenAI表示,它正在开始将类似CriticGPT的模型集成到其RLHF标记线中,为自己的培训师提供明确的AI协助。但是与此同时,他们也承认,CriticGPT并非所有的观点都是正确的,但是在CriticGPT的支持下,人类培训师的效率将会大大提高。
众所周知,RLHF是OpenAI旗下ChatGPT比过去AI产品更智能的关键。它可以利用人类的反馈信号直接改进语言模型,而数据标记者负责判断大型模型生成的文本是否符合人类的喜好。这样,在RLHF训练中为AI输出错误的CriticGPT,实际上让OpenAI通过人工智能来调整人工智能,相当于左脚踩右脚上天。

事实上,CriticGPT应该是去年OpenAI推出的AI文本检测器。(AI Text Classifier)的升级版。测试网络上的内容是否由AI生成已经成为目前的热门项目。当时OpenAI拿出了AI文本检测器,但是这个工具的效果并不理想。根据OpenAI公布的相关数据,AI文本检测器只有26%的正确率来识别AI生成的文本,而将人类写的内容识别为AI的错误率达到9%。
虽然监督学习方法也是如此,但AI文本检测器最大的问题是数据有限。如果你想让一个AI检测工具的性能在线,你需要一个接近ChatGPT训练所需的数据集。CriticGPT诞生于今天基于GPT-4的巨大数据。同样使用RLHF,CriticGPT和常规GPT最大的不同之处在于训练数据中包含了大量有意的错误输入,OpenAI称为随机对照试验,通过篡改答案来实现。
在OpenAI方面,首先要让人类标记员在ChatGPT的回答中故意植入错误,然后指出问题,最后把所有的数据交给CriticGPT。但他们也承认CriticGPT会产生幻觉,如果只是用AI来测试AI,考虑到幻觉的出现,两个会产生幻觉的AI大模型相互碰撞,显然只会产生更多的错误。所以OpenAI也做出了一个名字叫强制采样束搜索。(FSBS)技术方面,后者将强制CriticGPT生成多个不同的评论片段,并使用奖励模型(Reward model)对这些片段进行评分,最后根据评分和长度修正因素选择最佳反馈组合。
因此,CriticGPT可以在输出全面性和准确性之间找到最佳解决方案。以目前最流行的代码生成为例,OpenAI给出的结果无疑是可喜的。当发现人为故意插入的bug时,人类审查员的平均值只能找到25%,而CriticGPT的准确率已经达到75%以上。然而,在评估自然bug时,63%的人类培训师更倾向于选择CriticGPTic。、而不是人类程序员的结果。
即使在评估了非代码任务之后,CriticGPT也成功地识别了数百个ChatGPT训练数据,它们被人类标记者视为“完美”、但是实际上是错误的结果。对于CriticGPT为何能够实现这种表现,用OpenAI开发者的话说,对许多任务来说,评估任务实际上比做好任务要容易得多。与ChatGPT相比,CriticGPT没有创造性,它只能根据现有的导出进行评估。
CriticGPT的成功不仅仅在于拥有一个可用的AI检测工具,更重要的是,它还可以帮助后续的大模型练习。
要知道,RLHF是ChatGPT这一大语言模型甚至多模态大模型的理论基础,但是RLHF并不是万能的,RLHF的上限就是人类的智能上限。没有CriticGPT的成功,大模型的边界就是人类认知的边界,从某个临界点开始,人类将无法再可靠地评估人工智能系统,这就是为什么OpenAI去年总是避免谈论GPT-5。
CriticGPT的出现代表了OpenAI提出的可扩展监管。(Scalable Oversight)不是妄想。可扩展监管是指在确保模型能力超过人类水平后,仍然可以与人类的预期保持一致,不断改进和学习。也许只有用大模型监督大模型,才能有超越人类智能的人工智能。
[本文图片来自网络]
本文来自微信微信官方账号“三易生活”(ID:IT-作者:三易菌,36氪经授权发布,3eLife)。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




