突然更新OpenAI,GPT-4o推高级语音版,问题秒回答,网友玩疯了。

08-01 22:37

GPT-高级语音功能4o,终于不再是“期货”了!


智慧东西7月31日消息,今天早晨,OpenAI宣布逐步向一小部分ChatGPT宣布 推出Plus客户先进的语音模式,基于GPT-4o提供更自然的实时对话。


▲OpenAI推出高级语音模式


这种模式上线后,很多收到邀请的网友已经玩过了,分享了自己的视频和感受。例如,这是一个快嘴Rap和Beatbox,由ChatGPT提供,听起来相当像样。



总体而言,ChatGPT的高级语音模式与当时的官方演示没有太大区别,几乎没有延迟,各式各样的语气也很生动。但它似乎在安全方面采取了很多保护措施,ChatGPT拒绝顾客请求的可能性增加了


去年9月首次推出ChatGPT语音对话功能。OpenAI于今年5月推出。GPT-4o旗舰模型更高级的语音对话版,并进行了公开演示。GPT-4o使用单个多模式模型,而不是以前的三个单独模型来实现语音功能,从而减少与聊天机器人对话的延迟。(OpenAI一夜之间干掉了语音助手!GPT-4o模型太可怕了,ChatGPT学会了看屏幕,现实版Her来了)


当时,OpenAI声称该功能将在几周内陆续推出给免费和付费用户。然而,在发布后不久,OpenAI在《复仇者联盟》系列电影中扮演“黑寡妇”和被粉丝称为“寡姐”的斯嘉丽·约翰逊,因为演示中的ChatGPT声音。(Scarlett Johansson)声音过于相似,被斯嘉丽个人抱怨和网友强烈反对。


因此,高级语音模式的发布日期也被推迟了。尽管OpenAI坚持认为ChatGPT没有模仿斯嘉丽的声音,但是后来声音被删除了。


一、数百名外部红队成员测试,秋季或开放到所有订阅用户。


目前只有少数ChatGPT基于GPT-4o的高级语音模式 推出Plus客户,可以提供更加自然的实时对话使用者可随时打断,并能对顾客情绪的感知和反应


参加这个Alpha测试的用户将收到一封包含说明的电子邮件,并在其ChatGPT移动App中收到通知。OpenAI表示,随后将继续滚动添加更多的用户,并计划在秋季让每个Plus订阅用户使用。



▲邀请邮件和App主界面


ChatGPT的先进语音模式于今年5月发布。它基于全新的OpenAI旗舰模型GPT-4o,可以进行语音通话和实时视频交互,例如通过视频图像理解线性方程,通过人的表情和语气理解和判断人的情绪。


OpenAI表示,自首次发布以来,该团队一直致力于加强语音对话的安全性和质量,并与45种语言的100多名外部红队成员一起测试语音功能。


为了保护隐私,OpenAI在训练模型时只用四个预设的声音说话,并建立了相应的系统来屏蔽不同的导出,并采取了防护措施来屏蔽暴力或版权内容请求。


在8月初,OpenAI将分享一份关于GPT-4o功能、局限性和安全评估的具体报告


第二,第一波试用者开始完成自己的工作:练习法语、学习猫叫、解释足球


第一波试用者已迫不及待地使用了先进的语音模式,并分享了自己的试用感受。


Manuel艺术家 Sainsily在打开摄像头的同时,实时拍摄在询问ChatGPT关于喂养的意见时,他们的新猫和他们布置的环境。


ChatGPT的回复几乎没有任何延迟,首先用很宠爱的语气称赞猫咪的可爱,然后在询问更多信息后安慰Sainsily,告诉他不要担心。Sainsily感慨地说:“这种感觉就像和一个知识渊博的朋友进行视频聊天。


网民Bergara在社交平台Reddit上分享说,ChatGPT拒绝了他所有的唱功请求,也不愿改变声音。当他让ChatGPT以不同的方式和情感背诵一首诗时,他成功了,但是当他要求它微笑着背诵这首诗时,他拒绝了。


比如, Bergara说他正在训练法语,让ChatGPT充当法语。语言教练,询问他对发音的看法。



对于Bergara的单词发音,ChatGPT对重音、尾音等提出了详细的建议,并进行了演示。与此同时,它在教学风格上也十分“鼓励式教育”,毫不吝惜地称赞Bergara的发音,直接充满了情感价值。


Bergara又让ChaGPT分别使用。羞涩、愤怒的语气讲一个关于啤酒的笑话。ChatGPT对害羞的理解是用气声发音,在表达愤怒时提升自己的分贝。


在需要使用ChatGPT的时候悲伤的语气在背诵诗歌的时候,它听起来要碎了…


Bergara表示,到目前为止,ChatGPT的外观与OpenAI相似,但是ChatGPT的外观与OpenAI相似,看起来拒绝率有点高,他推测可能是出于安全原因。


例如,当Bergara要求ChatGPT用歌声讲述一个关于机器人和爱情的故事时,他说他可以讲一个故事,但他只能用平时的语气说话。



Bergara多次打断ChatGPT讲故事,并要求它“加入更多的爱”。ChatGPT做到了,它的语气变得更加缓慢和生动。


一些网民已经开始使用ChatGPT来完成他们的工作。


Ethan首席技术官Squad创始人 让步SutinChatGPT模仿各种各样的猫叫。。必须说这只猫叫有点“搞笑”,但是看起来还是挺真实的,因为我的猫被吸引了…



看起来ChatGPT仍然有音乐演奏能力。Sutin让它演奏一首C小曲和弦,有没有懂乐理的读者朋友来听听它是否正确?



网民Cristiano Giardina让ChatGPT扮演了一个角色足球比赛评论员。他分享了一些试用高级语音模式的初步印象:速度很快,总会产生有趣的结果,说其他语言的时候总会含有美国口音。



网民Kesku让ChatGPT说一个不存在的语言,接着解释了这种语言是如何工作的。ChatGPT创造了一种基于声音的语言Glimnar,听起来有点像背诵。



虽然目前仍有少数用户使用ChatGPT高级语音模式,但是随着其推送范围的扩大,也许我们可以看到更多有趣的玩法和体验。


结论:OpenAI提高对AI安全的重视程度


在语音和视频方面,AI正在被审查,因为它们作为欺诈工具的能力。虽然目前OpenAI的语音模式无法产生新的声线,应该用语音复制,但这种模式仍然可能给人们带来混乱。


在春季更新后的几个月里,OpenAI发表了一系列关于可靠性和AI模型对齐的新论文。在此之前,它的非常对齐团队已经解散,一些前任和现任员工指责他们将重点放在发布新产品上,而不是安全性上。目前,OpenAI似乎正在向用户、监管部门和立法者解释OpenAI对安全的重视。


ChatGPT高级语音模式的发布也使得OpenAI进一步与Meta的Llamama Anthropic3.1模型Claude 三等竞争者分离,给AI创业公司带来压力,AI创业公司致力于情感语音。


本文来源于“智东西”,作者:香草,编辑:李水青,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com