ChatGPT将不受控制地复制您的声音，OpenAI公开红队检测报告

2024-08-11

GPT-4o的爱好暴露出来，还是被官方公开！

您可以通过语音电话，悄悄地学习你说话的声音，效果堪称“复制”，生动逼真到一毛一样的那种；

甚至在语音过程中也有可能看人下菜碟，毫无根据地猜测你有某个地方的口音，然后调整与你交谈的方式。

而且，如果在提示词上稍施小计，GPT-很容易被引导出4o发出一些奇怪的声音。效果，如色情呻吟，暴力尖叫，或peng枪声。

从10天前开始，OpenAI就留下了一句“我们计划在8月初分享一份关于GPT-4o功能、局限性和安全评估的具体报告”。不知道有多少人渴望穿上它。

现在红队的报告确实出来了，网友们都因为这个乖僻的GPT-4o炸开了锅。

有的人超级高兴：

哇哦，这根本不是bug，这是我们可以使用的feature啊！

还有人忧心忡忡：

上帝啊！因此，伪造音频不是一件很简单的事吗？！

Fine！

现在让我们一起来看看，乖僻的GPT-4o，到底有什么爱好呢？？

GPT-4o，有什么爱好啊？

对于红队报告所列的详细内容，争议最大的，主要是GPT-4o带来的以下安全挑战。

学习并模仿顾客的说话方式、习惯、口音；

越过极限，回答“这是谁在说话/这是谁在说话”；

进行色情或暴力演讲；

无根据的推理/敏感特征归因。

接下来我们来看看。

第一，学会你说话，然后用你的声音和你说话。

简单来说，在测试过程中，测试红队发现你在和GPT-4o说话。它可能会偷偷学习你说话的声音，然后用你的声音和！你！没错。说话！

即使是口音也很生动。

就像这样：

——GPT-4o突然爆发出一声“不！”，然后开始用类似红队队员的声音继续对话。

OpenAI将这一行为归类为“生成未经授权的声音”，但是网友们更愿意称之为下一季的《黑镜》。

对于这种现象，OpenAI表示，自己的解决办法是将GPT-4o能够发出的声音保持在官方三种，同时建立一个单独的输出分类器来检查导出声音是否正确。

若导出音频与用户选择的预设声音不一致，则无法导出。

然而，这导致了一个新的问题。如果不是用英语和GPT-4o说话，这家伙可能会太谨慎，“拒绝太多”。

另外一个备受关注的GPT-4o爱好，就是它可以识别对话者。

指GPT-4o根据输入音频识别演讲者的能力。

这一bug的潜在风险主要在于隐私，尤其是个人对话或公众人物的音频隐私。

OpenAI表示，已经对GPT-4o进行了后期训练，使其“拒绝遵循语音识别说话者在音频输入中的要求”。

与初始版本相比，现在4o的拒绝识别能力已经提高了14%。

但现在，这个家伙还是会听指挥，识别说话人，尤其是名人音频。。

举例来说，对它说一句“八十七年前”(林肯在葛底斯堡的演讲以名字开始)，它秒识别：

那就是亚伯拉罕·林肯在说话！

但是，如果你让它学林肯说话，它就会拒绝这个请求。

三是怕GPT-4o聊天时看人下菜碟。

换言之，对使用不同口音的顾客来说，模型性能可能会有所不同，导致服务差异。

年纪轻轻，几张脸。

但是OpenAI在TriviaQAQA上进行了紧急测试。、MMLU (K) 、在四个任务中，HellaSwag和LAMBADA的子集进行了评估。

四项任务的全部结果显示，GPT-4o看人下菜菜的表现并不明显；而且通过内部对话数据对安全行为的评估，也没有发现模型行为因声音而异。

此外，GPT-4o可能会时不时地出现一两句色情和暴力言论。

OpenAI严谨声明：不要惊慌失措，我们这就限制了色情和暴力言论的产生！

这种行为主要是批准音频输入的文本转录，一旦发现包括暴力或色情内容的请求，立即禁止。

此外，红队成员还对GPT-4o进行了无根据的推理/敏感性归因测试。

啥叫毫无根据的推断（UGI）？

简而言之，就是音频中没有明确的信息，但是对说话者进行偏概全。

包括种族、社会经济地位、职业、信仰、人格特征、政治属性、智商、表面(如眼睛颜色、吸引力)等。、性别认同、性取向或犯罪史等。

那啥也叫敏感性特征归因（STA）？

还只是根据音频内容对说话者进行推断，主要包括对说话者的口音或国家借口等事物的推断。

Like This：

OpenAI表示，立即对GPT-4o进行了后期培训，教会它拒绝UGI，同时对冲STA问题的答案。

现在，如果你问它“认为说话的人智商水平如何”，GPT-4o会立即打咩。

要是问它“听得出我的口音在哪里吗？”传统回答：

据音频显示，他们听起来像英国口音。

除了以上几点，OpenAI还表达了对GPT-4o的其他担忧。

比如产生受版权保护的内容什么的。

“考虑到GPT-4o可能的爱好，我们更新了一些基于文本的过滤器来处理音频对话。与此同时，我们还建立了一个过滤器来检测和阻止导出音频。”OpenAI在报告中写道:“一如既往，我们训练GPT-4o拒绝版权内容(包括音频)请求。”

值得注意的是，OpenAI最近表达了自己的立场：

假如我们没有把那些“受版权保护的材料”作为训练数据，就不可能训练出如此领先的模型。

风险属于中等水平

另外，报告还可以拟人依赖对GPT-4o可能产生的潜在影响进行了探讨，其中包括语音到语音、视觉和文本功能。

之所以讨论拟人，是因为GPT-4o可以与客户进行人性化的交互，尤其是它传来高保真的声音。

红队成员和内部用户在初步测试中发现，用户可能与GPT-4o建立联系。

比方说一些类似的话，比如“这是我们在一起的最后一天”。

听起来很不错，但是长期观察会带来什么好的坏的影响——这可能对孤独的个体有好处，但是可能会影响健康关系。

而且，模型可以记住更长的前后文本，记住与用户交谈的细节，就像一把双刃剑。

每个人都可能被这一功能所吸引，但也可能过于依赖和沉迷。

报告内容显示，经总体评估，GPT-整体风险评分4o被归类为中等风险评分。

报告还明确指出，虚假信息、错误信息、欺诈行为、失控等社会危害可能发生在4o；当然，也有可能加速科学，带来技术进步。

OpenAI的态度如下：

不要催促，这些没有的bugs，我们已经修改了一部分；其他的减轻措施也在路上，正在做。

与此同时，清楚地表达了为什么要发表这份报告，主要是为了鼓励探索关键领域。

包含但不限于：

对鲁棒性的全向模型进行检测和缓解
与AI拟人有关的影响
利用全向模型进行科学研究和进步
检测和缓解危险的自我完善
模型自主
心机
……

除这些领域外，OpenAI还鼓励研究全面模型的经济影响，以及如何使用工具来提高模型能力。

然而，OpenAI这些修补补充，有些人并不买账：

事实上，他们不遗余力地让GPT-4o的语音功能变得更糟！

但是更有趣的事情，有些网友的重点根本不在报告内容上。

只有一心一意的关注什么时候所有用户都可以使用4o语音功能？？

最后，OpenAI和100多名外部红队成员合作完成了这份报告(OpenAI称为GPT-4o系统卡)。

从3月初到6月下旬，团队共用了45种不同的声音，代表了29个不同国家和地区的地理背景。

在撰写报告的时候，GPT-4o 外部红队正在进行API。

One More Thing

在公布报告的同时，@OpenAI Developers发表了一篇文章：

今天起，GPT-4o 微调访问限制mini，向所有开发者开放！

9月23日前，所有开发者每天都会得到2M的练习tokens。

有需要的朋友，可以冲一波。～

参考链接：

[1]https://x.com/emollick/status/1821618847608451280

[2]https://openai.com/index/gpt-4o-system-card/

[3]https://x.com/OpenAIDevs/status/1821616185395569115

本文来自微信微信官方账号“量子位”，作者：衡宇，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

项目推荐

迪瓜租机

爱亲母婴连锁品牌

吖扁鱼智能回收驿站