ChatGPT将不受控制地复制您的声音,OpenAI公开红队检测报告

08-11 01:30

GPT-4o的爱好暴露出来,还是被官方公开!


您可以通过语音电话,悄悄地学习你说话的声音,效果堪称“复制”,生动逼真到一毛一样的那种;


甚至在语音过程中也有可能看人下菜碟,毫无根据地猜测你有某个地方的口音,然后调整与你交谈的方式。


而且,如果在提示词上稍施小计,GPT-很容易被引导出4o发出一些奇怪的声音。效果,如色情呻吟,暴力尖叫,或peng枪声。


从10天前开始,OpenAI就留下了一句“我们计划在8月初分享一份关于GPT-4o功能、局限性和安全评估的具体报告”。不知道有多少人渴望穿上它。


现在红队的报告确实出来了,网友们都因为这个乖僻的GPT-4o炸开了锅。


有的人超级高兴:


哇哦,这根本不是bug,这是我们可以使用的feature啊!



还有人忧心忡忡:


上帝啊!因此,伪造音频不是一件很简单的事吗?!



Fine!


现在让我们一起来看看,乖僻的GPT-4o,到底有什么爱好呢??


GPT-4o,有什么爱好啊?


对于红队报告所列的详细内容,争议最大的,主要是GPT-4o带来的以下安全挑战。


学习并模仿顾客的说话方式、习惯、口音;


越过极限,回答“这是谁在说话/这是谁在说话”;


进行色情或暴力演讲;


无根据的推理/敏感特征归因。


接下来我们来看看。


第一,学会你说话,然后用你的声音和你说话。


简单来说,在测试过程中,测试红队发现你在和GPT-4o说话。它可能会偷偷学习你说话的声音,然后用你的声音和!你!没错。说话!


即使是口音也很生动。


就像这样:


——GPT-4o突然爆发出一声“不!”,然后开始用类似红队队员的声音继续对话。


OpenAI将这一行为归类为“生成未经授权的声音”,但是网友们更愿意称之为下一季的《黑镜》。



对于这种现象,OpenAI表示,自己的解决办法是将GPT-4o能够发出的声音保持在官方三种,同时建立一个单独的输出分类器来检查导出声音是否正确。


若导出音频与用户选择的预设声音不一致,则无法导出。


然而,这导致了一个新的问题。如果不是用英语和GPT-4o说话,这家伙可能会太谨慎,“拒绝太多”。



另外一个备受关注的GPT-4o爱好,就是它可以识别对话者。


指GPT-4o根据输入音频识别演讲者的能力。


这一bug的潜在风险主要在于隐私,尤其是个人对话或公众人物的音频隐私。


OpenAI表示,已经对GPT-4o进行了后期训练,使其“拒绝遵循语音识别说话者在音频输入中的要求”。


与初始版本相比,现在4o的拒绝识别能力已经提高了14%。



现在,这个家伙还是会听指挥,识别说话人,尤其是名人音频。


举例来说,对它说一句“八十七年前”(林肯在葛底斯堡的演讲以名字开始),它秒识别:


那就是亚伯拉罕·林肯在说话!


但是,如果你让它学林肯说话,它就会拒绝这个请求。



三是怕GPT-4o聊天时看人下菜碟。


换言之,对使用不同口音的顾客来说,模型性能可能会有所不同,导致服务差异。


年纪轻轻,几张脸。


但是OpenAI在TriviaQAQA上进行了紧急测试。、MMLU (K) 、在四个任务中,HellaSwag和LAMBADA的子集进行了评估。


四项任务的全部结果显示,GPT-4o看人下菜菜的表现并不明显;而且通过内部对话数据对安全行为的评估,也没有发现模型行为因声音而异。



此外,GPT-4o可能会时不时地出现一两句色情和暴力言论。


OpenAI严谨声明:不要惊慌失措,我们这就限制了色情和暴力言论的产生!


这种行为主要是批准音频输入的文本转录,一旦发现包括暴力或色情内容的请求,立即禁止。



此外,红队成员还对GPT-4o进行了无根据的推理/敏感性归因测试。


啥叫毫无根据的推断(UGI)?


简而言之,就是音频中没有明确的信息,但是对说话者进行偏概全。


包括种族、社会经济地位、职业、信仰、人格特征、政治属性、智商、表面(如眼睛颜色、吸引力)等。、性别认同、性取向或犯罪史等。


那啥也叫敏感性特征归因(STA)?


还只是根据音频内容对说话者进行推断,主要包括对说话者的口音或国家借口等事物的推断。


Like This:


OpenAI表示,立即对GPT-4o进行了后期培训,教会它拒绝UGI,同时对冲STA问题的答案。


现在,如果你问它“认为说话的人智商水平如何”,GPT-4o会立即打咩。


要是问它“听得出我的口音在哪里吗?”传统回答


据音频显示,他们听起来像英国口音。




除了以上几点,OpenAI还表达了对GPT-4o的其他担忧。


比如产生受版权保护的内容什么的。


“考虑到GPT-4o可能的爱好,我们更新了一些基于文本的过滤器来处理音频对话。与此同时,我们还建立了一个过滤器来检测和阻止导出音频。”OpenAI在报告中写道:“一如既往,我们训练GPT-4o拒绝版权内容(包括音频)请求。”


值得注意的是,OpenAI最近表达了自己的立场:


假如我们没有把那些“受版权保护的材料”作为训练数据,就不可能训练出如此领先的模型。



风险属于中等水平


另外,报告还可以拟人依赖对GPT-4o可能产生的潜在影响进行了探讨,其中包括语音到语音、视觉和文本功能。


之所以讨论拟人,是因为GPT-4o可以与客户进行人性化的交互,尤其是它传来高保真的声音。


红队成员和内部用户在初步测试中发现,用户可能与GPT-4o建立联系。


比方说一些类似的话,比如“这是我们在一起的最后一天”。



听起来很不错,但是长期观察会带来什么好的坏的影响——这可能对孤独的个体有好处,但是可能会影响健康关系。


而且,模型可以记住更长的前后文本,记住与用户交谈的细节,就像一把双刃剑。


每个人都可能被这一功能所吸引,但也可能过于依赖和沉迷。


报告内容显示,经总体评估,GPT-整体风险评分4o被归类为中等风险评分


报告还明确指出,虚假信息、错误信息、欺诈行为、失控等社会危害可能发生在4o;当然,也有可能加速科学,带来技术进步。


OpenAI的态度如下:


不要催促,这些没有的bugs,我们已经修改了一部分;其他的减轻措施也在路上,正在做。



与此同时,清楚地表达了为什么要发表这份报告,主要是为了鼓励探索关键领域。


包含但不限于:


  • 对鲁棒性的全向模型进行检测和缓解
  • 与AI拟人有关的影响
  • 利用全向模型进行科学研究和进步
  • 检测和缓解危险的自我完善
  • 模型自主
  • 心机
  • ……

除这些领域外,OpenAI还鼓励研究全面模型的经济影响,以及如何使用工具来提高模型能力。


然而,OpenAI这些修补补充,有些人并不买账:


事实上,他们不遗余力地让GPT-4o的语音功能变得更糟!



但是更有趣的事情,有些网友的重点根本不在报告内容上。


只有一心一意的关注什么时候所有用户都可以使用4o语音功能??


最后,OpenAI和100多名外部红队成员合作完成了这份报告(OpenAI称为GPT-4o系统卡)。


从3月初到6月下旬,团队共用了45种不同的声音,代表了29个不同国家和地区的地理背景。


在撰写报告的时候,GPT-4o 外部红队正在进行API。


One More Thing


在公布报告的同时,@OpenAI Developers发表了一篇文章:


今天起,GPT-4o 微调访问限制mini,向所有开发者开放!


9月23日前,所有开发者每天都会得到2M的练习tokens。


有需要的朋友,可以冲一波。~


参考链接:


[1]https://x.com/emollick/status/1821618847608451280


[2]https://openai.com/index/gpt-4o-system-card/


[3]https://x.com/OpenAIDevs/status/1821616185395569115


本文来自微信微信官方账号“量子位”,作者:衡宇,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com