OpenAI自研反AI神器,憋了两年什么都不是?
ChatGPT刚刚发布的时候,曾经成为学生写论文时的神助。
而且现在,恐怕会成为学生党的噩梦。
根据内部消息,OpenAI已经悄悄开发了一种“反抄袭神器”,可以准确检测是否有人在论文或研究报告中使用了ChatGPT。虽然学生使用AI作弊让教育界陷入困境,但OpenAI始终保持不变,没有公开这项技术。
知情人士和内部文件透露,这个项目已经在OpenAI上演了两年的拉锯战,但事实上,它早在一年前就已经箭在弦上,准备出发。
一位知情人士说:“只需按下那个按钮,”。
OpenAI为什么这么纠结于这个功能?更重要的是,这个所谓的水印真的能100%破解GPT生成的文本吗?
给GPT打 “码”
想象一下,ChatGPT就像一个非常聪明的文字接龙大师。它总能猜到下一个最合适的词,在AI世界里被称为「词元」(Token)。
比如,当你抛出“我最喜欢的水果是__”的开头,ChatGPT的大脑就会开始疯狂运转。根据前后情况,它将是“苹果”、“香蕉”、“草莓”、在“榴莲”等列表中随机抽取一个。这个过程就是大语言模型(LLM)日常工作。
然而,OpenAI正在酝酿的这个反作弊神器,计划在这个选词过程中给出一个黑暗的陈仓。它会悄悄调整选词的概率,「词元」在选择上埋下了一些特定的概率方法。
虽然这种水印对于读者来说没有任何意识,但在OpenAI内部的检查下却没有什么隐藏的。据知情人士透露,只要ChatGPT产生足够多的文本,这种水印的效率就可以高达99.9%。
所以,这个水印到底是怎么工作的呢?
根据现有数据,PConline可以通过改变一个句子中词元出现的频率来实现。
让我们玩一个文字游戏:
或者是那句“我最喜欢的水果是__”。
在上述语境下,所有水果出现的概率可能相同。但是有了水印技术,这个概率分布会稍微改变一下。苹果和橘子出现的概率最高。这种微妙的概率变化是GPT埋下的水印,就像是为整篇文章埋下了一串看不见的暗语。
OpenAI打印简单示意图(图片:高海晏)
这个密码的聪明之处在于,即使不是最好的选词,对于普通读者来说也不会觉得僵硬。然而,在OpenAI的解码器下,这些文字会暴露AI产生的真实外观。
Reddit网友补充说,这是一个从随机到刻意的过程,在限制语境下。想象一下,AI在写作时悄悄地抛出了一枚看不见的硬币。对于我们人类来说,这枚硬币的正反面是完全随机的。但是对于OpenAI来说,这枚硬币的每一次翻转都代表着一个规律,形成了一个只能破解的密码。

网友解读Reddit
然而,我们不得不问这个水印是否可靠。毕竟OpenAI还在隐瞒,具体技术细节没有公开。只是8月7日,官网悄悄发布了一个博客,承认内部团队正在研究给GPT打水印。
OpenAI仍然在为水印是否公开而犹豫不决,事实上,市场上已经出现了各种各样的AI文本检测工具。
“猫鼠游戏”的AI和反AI已悄然开始。
本届福尔摩斯AI文本
谷歌于2024年5月推出了一款名为SynthID的“文字水印”工具,它给Geminini AI生成的每一段都标有一个看不见的标记。
SynthID在Beta版本中的原理与预测OpenAI水印技术完全相同。这给每一个词元带来了神秘的概率结果。SynthID在选词时会悄悄地调整这些结果。这样的行为既不会影响文章的质量,又能留下AI的“数字指纹”。
谷歌 水印效果更复杂的SynthID演示(Src.谷歌官网)
谷歌言而有信地说,SynthID尤其适用于文章、戏剧剧本或电子邮件等长篇幅、多样化的文本。
想象一下,在一篇AI生成的文章中,每个句子可能有十几个这样的标记,而整个页面可能有几百个。这些标记与AI的选词模式交织在一起,形成了独特的水印。 并且,至少要有三个句子,这个水印才能真正发挥作用。 。文字越长,这种水印就越容易被发现。
在欧美学术界和新闻界,AI文本测试已经成为学生、教师和记者的必备技能。其中,最热门的是GPT。 Zero。
GPT 官网Zero截图
这位爱德华的普林斯顿大学学霸。(Edward·Tian)开发的AI模型,就像数字世界的福尔摩斯,专门解决了AI产生的文字谜团。它的破解概念是基于深度学习算法和统计特征,就像对每个单词进行CT扫描一样。
作为市场上成熟且商业化的商品,GPT 从100Zero的付费模式~大约71美元(约人民币)~163元/月收费,提供AI检验筛查、多语言检验、语法建议等多字功能。通过给出的AI检验报告,用户可以逐字逐句地手动修改,从而降低AI感。
GPT Zero资费标准
不过,GPT Zero也不是万能的。 当面临复杂或混合的文本时,它也可能会感到困惑。而且,它对其它语言的检查也不准确。虽然GPT Zero声称准确率高达99%,但是仍然有1%的机会看错。
没有,小红书的一些网友调侃说,他们写的东西被学校判定为AI作品。这位网友无奈地说:“我写的只是不合逻辑。”
小红书网友嘲讽自己的原创被认定为AI。
箭在弦上,为什么没有发?
所以问题来了,为什么OpenAI迟迟不发布这个文字水印功能?
首先,在文本上打上AI水印并不容易。
文字比较分散,图像比较整体。同样的想法可以用无数种方式来表达,就像一个故事可以有成千上万种说法一样。每一个词都是独立而多义的,这大大增加了统计分析的难度。相比之下,照片虽然构成复杂,但是在数字上。(Digital)在这个世界上,它们就像一座由积木建造的城堡,每一个像素都是一块积木,在“积木”上标注更容易被AI和人眼捕捉到。
照片无限放大后可以看到像素(拍摄/绘图:高海晏)
另外,聪明的网友发现,所谓的GPT文字水印可以通过来回翻译不同的语言来破解。。Reddit网友分享教程:将AI产生的文本首先翻译成其它语言,然后翻译回来,就可以巧妙地绕过生成式AI文本的套路感。
OpenAI本身也承认,使用翻译软件很容易避免水印。
Reddit网友发帖回应如何避免AI生成文本的尴尬?
其次,是否有必要给文字打上水印也有争议。
MIT技术评论泼了一盆冷水:很多人用ChatGPT只是为了润色或者拼写电子邮件。如果所有AI生成的文字都被水印,难道不应该给这些无辜的路人一个“作弊”的大锅吗?
OpenAI也是一个争论。如果这个“眼睛”掌握在少数人手中,有什么意义?但是如果每个人都能用,那些心怀不轨的人不是很快就能破解水印技术吗?
更令人头疼的是,一项针对ChatGPT忠实用户的调查显示,近三分之一的人表示,如果他们知道有反作弊技术,他们就会失去兴趣。这就像束缚你的左膀右臂。
然而,市场上层出不穷的AI检测工具的确反映了用户对版权问题日益增长的焦虑。
今年七月,艺术家们甚至开始向Glaze等工具寻求帮助,试图用AI来对抗AI,将人眼难以察觉的数字噪声添加到图像中,以防止图像生成器复制其独特的风格。
官网Glaze截图
现在,创作者们正在寻求各种各样的安全措施来规避AI带来的风险,科技巨头们也在不断地创新他们的产品条款。
去年12月,两件关于版权的大事引起了强烈反响:Meta突然宣布将在10亿Facebook和Instagram用户的照片上训练AI。;《纽约时报》起诉OpenAI和微软,指控他们未经授权使用数百万篇受版权保护的文章来训练生成AI模型。
在AI这个数据饕餮面前,创作者们不得不与时俱进,学会用AI作为自己的武器,玩“以毒攻毒”的把戏。
归根结底,成年人,时代变了。
这一幕不禁让人想起了本雅明在《机械复制时代的艺术作品》中的预言。过去,机械复制技术颠覆了美学的“灵光”(Aura),现在,AI又把创作推向了哪里?
在这个算法和代码主导的新时代,创作的独特性似乎被AI无限复制和生成的能力所取代。但也许,正如本雅明所说,这种变化也带来了新的概率。 ——AI使创作从阳春白雪变成了下里巴人。
所以你认为AI是创作的威胁吗?
参照文章
[1] There’s a Tool to Catch Students Cheating With ChatGPT. OpenAI Hasn’t Released It. ChatGPT
[2] Why detecting AI-generated text is so difficult (and what to do about it). MIT Technology Review.
[3] Tool preventing AI mimicry cracked; artists wonder what’s next. Ars. Technica
[4] OpenAI won’t watermark ChatGPT text because its users could get caught OpenAI. The Verge.
[5] Understanding the source of what we see and hear online. OpenAI
[6] 艺术作品在机械复制时代. 瓦尔特·本雅明.
本文来自微信公众号“PConline太平洋科技”,作者:高海晏,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




