突然更新OpenAI，GPT-4o推高级语音版，问题秒回答，网友玩疯了。

2024-08-01

GPT-高级语音功能4o，终于不再是“期货”了！

智慧东西7月31日消息，今天早晨，OpenAI宣布逐步向一小部分ChatGPT宣布推出Plus客户先进的语音模式，基于GPT-4o提供更自然的实时对话。

▲OpenAI推出高级语音模式

这种模式上线后，很多收到邀请的网友已经玩过了，分享了自己的视频和感受。例如，这是一个快嘴Rap和Beatbox，由ChatGPT提供，听起来相当像样。

总体而言，ChatGPT的高级语音模式与当时的官方演示没有太大区别，几乎没有延迟，各式各样的语气也很生动。但它似乎在安全方面采取了很多保护措施，ChatGPT拒绝顾客请求的可能性增加了。

去年9月首次推出ChatGPT语音对话功能。OpenAI于今年5月推出。GPT-4o旗舰模型更高级的语音对话版，并进行了公开演示。GPT-4o使用单个多模式模型，而不是以前的三个单独模型来实现语音功能，从而减少与聊天机器人对话的延迟。(OpenAI一夜之间干掉了语音助手！GPT-4o模型太可怕了，ChatGPT学会了看屏幕，现实版Her来了)

当时，OpenAI声称该功能将在几周内陆续推出给免费和付费用户。然而，在发布后不久，OpenAI在《复仇者联盟》系列电影中扮演“黑寡妇”和被粉丝称为“寡姐”的斯嘉丽·约翰逊，因为演示中的ChatGPT声音。（Scarlett Johansson）声音过于相似，被斯嘉丽个人抱怨和网友强烈反对。

因此，高级语音模式的发布日期也被推迟了。尽管OpenAI坚持认为ChatGPT没有模仿斯嘉丽的声音，但是后来声音被删除了。

一、数百名外部红队成员测试，秋季或开放到所有订阅用户。

目前只有少数ChatGPT基于GPT-4o的高级语音模式推出Plus客户，可以提供更加自然的实时对话，使用者可随时打断，并能对顾客情绪的感知和反应。

参加这个Alpha测试的用户将收到一封包含说明的电子邮件，并在其ChatGPT移动App中收到通知。OpenAI表示，随后将继续滚动添加更多的用户，并计划在秋季让每个Plus订阅用户使用。

▲邀请邮件和App主界面

ChatGPT的先进语音模式于今年5月发布。它基于全新的OpenAI旗舰模型GPT-4o，可以进行语音通话和实时视频交互，例如通过视频图像理解线性方程，通过人的表情和语气理解和判断人的情绪。

OpenAI表示，自首次发布以来，该团队一直致力于加强语音对话的安全性和质量，并与45种语言的100多名外部红队成员一起测试语音功能。

为了保护隐私，OpenAI在训练模型时只用四个预设的声音说话，并建立了相应的系统来屏蔽不同的导出，并采取了防护措施来屏蔽暴力或版权内容请求。

在8月初，OpenAI将分享一份关于GPT-4o功能、局限性和安全评估的具体报告。

第二，第一波试用者开始完成自己的工作:练习法语、学习猫叫、解释足球

第一波试用者已迫不及待地使用了先进的语音模式，并分享了自己的试用感受。

Manuel艺术家 Sainsily在打开摄像头的同时，实时拍摄在询问ChatGPT关于喂养的意见时，他们的新猫和他们布置的环境。

ChatGPT的回复几乎没有任何延迟，首先用很宠爱的语气称赞猫咪的可爱，然后在询问更多信息后安慰Sainsily，告诉他不要担心。Sainsily感慨地说：“这种感觉就像和一个知识渊博的朋友进行视频聊天。

网民Bergara在社交平台Reddit上分享说，ChatGPT拒绝了他所有的唱功请求，也不愿改变声音。当他让ChatGPT以不同的方式和情感背诵一首诗时，他成功了，但是当他要求它微笑着背诵这首诗时，他拒绝了。

比如， Bergara说他正在训练法语，让ChatGPT充当法语。语言教练，询问他对发音的看法。

对于Bergara的单词发音，ChatGPT对重音、尾音等提出了详细的建议，并进行了演示。与此同时，它在教学风格上也十分“鼓励式教育”，毫不吝惜地称赞Bergara的发音，直接充满了情感价值。

Bergara又让ChaGPT分别使用。羞涩、愤怒的语气讲一个关于啤酒的笑话。ChatGPT对害羞的理解是用气声发音，在表达愤怒时提升自己的分贝。

在需要使用ChatGPT的时候悲伤的语气在背诵诗歌的时候，它听起来要碎了…

Bergara表示，到目前为止，ChatGPT的外观与OpenAI相似，但是ChatGPT的外观与OpenAI相似，看起来拒绝率有点高，他推测可能是出于安全原因。

例如，当Bergara要求ChatGPT用歌声讲述一个关于机器人和爱情的故事时，他说他可以讲一个故事，但他只能用平时的语气说话。

Bergara多次打断ChatGPT讲故事，并要求它“加入更多的爱”。ChatGPT做到了，它的语气变得更加缓慢和生动。

一些网民已经开始使用ChatGPT来完成他们的工作。

Ethan首席技术官Squad创始人让步SutinChatGPT模仿各种各样的猫叫。。必须说这只猫叫有点“搞笑”，但是看起来还是挺真实的，因为我的猫被吸引了…

看起来ChatGPT仍然有音乐演奏能力。Sutin让它演奏一首C小曲和弦，有没有懂乐理的读者朋友来听听它是否正确？

网民Cristiano Giardina让ChatGPT扮演了一个角色足球比赛评论员。他分享了一些试用高级语音模式的初步印象:速度很快，总会产生有趣的结果，说其他语言的时候总会含有美国口音。

网民Kesku让ChatGPT说一个不存在的语言，接着解释了这种语言是如何工作的。ChatGPT创造了一种基于声音的语言Glimnar，听起来有点像背诵。

虽然目前仍有少数用户使用ChatGPT高级语音模式，但是随着其推送范围的扩大，也许我们可以看到更多有趣的玩法和体验。

结论：OpenAI提高对AI安全的重视程度

在语音和视频方面，AI正在被审查，因为它们作为欺诈工具的能力。虽然目前OpenAI的语音模式无法产生新的声线，应该用语音复制，但这种模式仍然可能给人们带来混乱。

在春季更新后的几个月里，OpenAI发表了一系列关于可靠性和AI模型对齐的新论文。在此之前，它的非常对齐团队已经解散，一些前任和现任员工指责他们将重点放在发布新产品上，而不是安全性上。目前，OpenAI似乎正在向用户、监管部门和立法者解释OpenAI对安全的重视。

ChatGPT高级语音模式的发布也使得OpenAI进一步与Meta的Llamama Anthropic3.1模型Claude 三等竞争者分离，给AI创业公司带来压力，AI创业公司致力于情感语音。

本文来源于“智东西”，作者：香草，编辑：李水青，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

在Notion爆红的背后，客户突破亿元，年收入18亿元，笔记成为AI创业的新共识？

从老师到老板，董宇辉辞职的风险是什么？

“割”芒果，把To C综艺节目玩得很清楚

日本突然加息！日本股票直线上涨，亚太市场爆发。

一月份跌幅超过30%，七月份最悲惨的红利股