ChatGPT将不受控制地复制您的声音,OpenAI公开红队检测报告
GPT-4o的爱好暴露出来,还是被官方公开!
您可以通过语音电话,悄悄地学习你说话的声音,效果堪称“复制”,生动逼真到一毛一样的那种;
甚至在语音过程中也有可能看人下菜碟,毫无根据地猜测你有某个地方的口音,然后调整与你交谈的方式。
而且,如果在提示词上稍施小计,GPT-很容易被引导出4o发出一些奇怪的声音。效果,如色情呻吟,暴力尖叫,或peng枪声。
从10天前开始,OpenAI就留下了一句“我们计划在8月初分享一份关于GPT-4o功能、局限性和安全评估的具体报告”。不知道有多少人渴望穿上它。
现在红队的报告确实出来了,网友们都因为这个乖僻的GPT-4o炸开了锅。
有的人超级高兴:
哇哦,这根本不是bug,这是我们可以使用的feature啊!
还有人忧心忡忡:
上帝啊!因此,伪造音频不是一件很简单的事吗?!
Fine!
现在让我们一起来看看,乖僻的GPT-4o,到底有什么爱好呢??
GPT-4o,有什么爱好啊?
对于红队报告所列的详细内容,争议最大的,主要是GPT-4o带来的以下安全挑战。
学习并模仿顾客的说话方式、习惯、口音;
越过极限,回答“这是谁在说话/这是谁在说话”;
进行色情或暴力演讲;
无根据的推理/敏感特征归因。
接下来我们来看看。
第一,学会你说话,然后用你的声音和你说话。
简单来说,在测试过程中,测试红队发现你在和GPT-4o说话。它可能会偷偷学习你说话的声音,然后用你的声音和!你!没错。说话!
即使是口音也很生动。
就像这样:
——GPT-4o突然爆发出一声“不!”,然后开始用类似红队队员的声音继续对话。
OpenAI将这一行为归类为“生成未经授权的声音”,但是网友们更愿意称之为下一季的《黑镜》。
对于这种现象,OpenAI表示,自己的解决办法是将GPT-4o能够发出的声音保持在官方三种,同时建立一个单独的输出分类器来检查导出声音是否正确。
若导出音频与用户选择的预设声音不一致,则无法导出。
然而,这导致了一个新的问题。如果不是用英语和GPT-4o说话,这家伙可能会太谨慎,“拒绝太多”。
另外一个备受关注的GPT-4o爱好,就是它可以识别对话者。
指GPT-4o根据输入音频识别演讲者的能力。
这一bug的潜在风险主要在于隐私,尤其是个人对话或公众人物的音频隐私。
OpenAI表示,已经对GPT-4o进行了后期训练,使其“拒绝遵循语音识别说话者在音频输入中的要求”。
与初始版本相比,现在4o的拒绝识别能力已经提高了14%。
但现在,这个家伙还是会听指挥,识别说话人,尤其是名人音频。。
举例来说,对它说一句“八十七年前”(林肯在葛底斯堡的演讲以名字开始),它秒识别:
那就是亚伯拉罕·林肯在说话!
但是,如果你让它学林肯说话,它就会拒绝这个请求。
三是怕GPT-4o聊天时看人下菜碟。
换言之,对使用不同口音的顾客来说,模型性能可能会有所不同,导致服务差异。
年纪轻轻,几张脸。
但是OpenAI在TriviaQAQA上进行了紧急测试。、MMLU (K) 、在四个任务中,HellaSwag和LAMBADA的子集进行了评估。
四项任务的全部结果显示,GPT-4o看人下菜菜的表现并不明显;而且通过内部对话数据对安全行为的评估,也没有发现模型行为因声音而异。
此外,GPT-4o可能会时不时地出现一两句色情和暴力言论。
OpenAI严谨声明:不要惊慌失措,我们这就限制了色情和暴力言论的产生!
这种行为主要是批准音频输入的文本转录,一旦发现包括暴力或色情内容的请求,立即禁止。
此外,红队成员还对GPT-4o进行了无根据的推理/敏感性归因测试。
啥叫毫无根据的推断(UGI)?
简而言之,就是音频中没有明确的信息,但是对说话者进行偏概全。
包括种族、社会经济地位、职业、信仰、人格特征、政治属性、智商、表面(如眼睛颜色、吸引力)等。、性别认同、性取向或犯罪史等。
那啥也叫敏感性特征归因(STA)?
还只是根据音频内容对说话者进行推断,主要包括对说话者的口音或国家借口等事物的推断。
Like This:
OpenAI表示,立即对GPT-4o进行了后期培训,教会它拒绝UGI,同时对冲STA问题的答案。
现在,如果你问它“认为说话的人智商水平如何”,GPT-4o会立即打咩。
要是问它“听得出我的口音在哪里吗?”传统回答:
据音频显示,他们听起来像英国口音。
除了以上几点,OpenAI还表达了对GPT-4o的其他担忧。
比如产生受版权保护的内容什么的。
“考虑到GPT-4o可能的爱好,我们更新了一些基于文本的过滤器来处理音频对话。与此同时,我们还建立了一个过滤器来检测和阻止导出音频。”OpenAI在报告中写道:“一如既往,我们训练GPT-4o拒绝版权内容(包括音频)请求。”
值得注意的是,OpenAI最近表达了自己的立场:
假如我们没有把那些“受版权保护的材料”作为训练数据,就不可能训练出如此领先的模型。
风险属于中等水平
另外,报告还可以拟人依赖对GPT-4o可能产生的潜在影响进行了探讨,其中包括语音到语音、视觉和文本功能。
之所以讨论拟人,是因为GPT-4o可以与客户进行人性化的交互,尤其是它传来高保真的声音。
红队成员和内部用户在初步测试中发现,用户可能与GPT-4o建立联系。
比方说一些类似的话,比如“这是我们在一起的最后一天”。
听起来很不错,但是长期观察会带来什么好的坏的影响——这可能对孤独的个体有好处,但是可能会影响健康关系。
而且,模型可以记住更长的前后文本,记住与用户交谈的细节,就像一把双刃剑。
每个人都可能被这一功能所吸引,但也可能过于依赖和沉迷。
报告内容显示,经总体评估,GPT-整体风险评分4o被归类为中等风险评分。
报告还明确指出,虚假信息、错误信息、欺诈行为、失控等社会危害可能发生在4o;当然,也有可能加速科学,带来技术进步。
OpenAI的态度如下:
不要催促,这些没有的bugs,我们已经修改了一部分;其他的减轻措施也在路上,正在做。
与此同时,清楚地表达了为什么要发表这份报告,主要是为了鼓励探索关键领域。
包含但不限于:
- 对鲁棒性的全向模型进行检测和缓解
- 与AI拟人有关的影响
- 利用全向模型进行科学研究和进步
- 检测和缓解危险的自我完善
- 模型自主
- 心机
- ……
除这些领域外,OpenAI还鼓励研究全面模型的经济影响,以及如何使用工具来提高模型能力。
然而,OpenAI这些修补补充,有些人并不买账:
事实上,他们不遗余力地让GPT-4o的语音功能变得更糟!
但是更有趣的事情,有些网友的重点根本不在报告内容上。
只有一心一意的关注什么时候所有用户都可以使用4o语音功能??
最后,OpenAI和100多名外部红队成员合作完成了这份报告(OpenAI称为GPT-4o系统卡)。
从3月初到6月下旬,团队共用了45种不同的声音,代表了29个不同国家和地区的地理背景。
在撰写报告的时候,GPT-4o 外部红队正在进行API。
One More Thing
在公布报告的同时,@OpenAI Developers发表了一篇文章:
今天起,GPT-4o 微调访问限制mini,向所有开发者开放!
9月23日前,所有开发者每天都会得到2M的练习tokens。
有需要的朋友,可以冲一波。~
参考链接:
[1]https://x.com/emollick/status/1821618847608451280
[2]https://openai.com/index/gpt-4o-system-card/
[3]https://x.com/OpenAIDevs/status/1821616185395569115
本文来自微信微信官方账号“量子位”,作者:衡宇,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com