攻击谷歌？展示苹果？在GPT-4o背后，OpenAI推出了遐想

2024-05-18

北京时间5月14日凌晨，OpenAI在线举办了“春季更新”活动。他们推出了最新的旗舰大型GPT-4o，不仅可以免费使用，还可以跨越听、看、说，光滑顺畅，没有任何延迟，就像打视频通话一样。

那么，GPT-4o还有什么能力？为什么GPT-4o这次发布的不是GPT-5？为什么OpenAI会在谷歌I/O大会之前发布这个产品？让我们看看我们能否在这次活动中找到答案。

GPT-4o有什么不同？

此次发布，GPT-4o最大的特点是增强了语音交互，声称与一些类似的竞争产品相比，它的响应时间更快，可以减少延迟，更接近与真人交谈的节奏。

当用户使用语音模式与ChatGPT对话时，GPT-4o之前，GPT-平均延迟3.5为2.8秒，GPT-4为5.4秒，由于处理方法，音频在输入时会丢失大量信息，使得GPT-4无法直接观察语气、说话人和背景噪音，也无法导出笑声、唱歌和表达情感。

与之相比，GPT-4o可以在232ms内行动音频输入，类似于人类在对话中的反应时间。在录制和播放视频中，两位高管做了一个演示:机器人可以从急促的呼吸声中理解“紧张”的含义，并指导他深呼吸，或者根据用户要求改变语气。

根据OpenAI网站的介绍，GPT-omni(翻译成全能)在4o中表示，它已经向更自然的人机交互迈出了一步，因为它接受文本、音频和图像的任意组合作为输入内容，并生成任何组合的输出内容，包括文本、音频和图像。

穆拉迪迪OpenAI项目负责人(Mira Murati)新型GPT-4o在直播活动中表示，“速度要快得多”，在文字、视频、音频等方面都有所提高，公司最终计划让用户与ChatGPT进行视频通话。这是我们第一次在方便方面迈出巨大的一步。

值得注意的是，新模型允许ChatGPT处理50种不同的语言，提高了速度和质量。它还支持OpenAI的API，让开发者今天可以开始使用新模型来构建应用程序。GPT-GPT-44o的速度是44o Turbo的两倍，费用只有一半。

就性能而言，OpenAI表示，在以往的基准测试中，GPT-在文本、推理和代码智能方面，4o实现了GPT-4 在多语言、音频和视觉能力方面，Turbo级的性能达到了一个新的高度。GPT-4 Turbo相当，在非英语文本方面有了显著的改进。

另外，通过过滤训练数据和训练后改进模型行为等技术，GPT-4o在设计中内置了跨方式的安全性，并创建了一个新的安全系统，为语音导出提供护栏。GPT-4o还与70多名来自心理学、偏见和公平、信息错误等方面的外部专家进行了广泛的外部团队合作。，以识别新增加引入或放大的风险，提高与GPT-4o互动的安全性。

值得注意的是，OpenAI不仅将GPT-4o直接提供给用户，而且将其作为API向开发者开放。这就意味着开发者可以很容易地利用GPT-4o的强大功能来构建自己的应用程序，从而显著提高研发速度、成本控制和功能实现。

而且，OpenAI竟然直接向用户免费开放该模型。

元宇宙新声认为，再一次提高语音能力，将使GPT-4o有望打破人与机器互动的“天花板”，未来的ChatGPT，可以无处不在——比如，它可以随时随地出现在人们身边，可以嵌入到没有屏幕的设备中与人交谈。总而言之，GPT-4o能使人们更加关注与ChatGPT的合作，而非受屏幕界面本身的限制。

GPT-4o在此时发布，是狙击谷歌还是示好苹果？

我相信OpenAI有理由在这个时间点发布GPT-4o。最直观的表现就是谷歌将在活动结束后的一天召开2024年I/O开发者大会，OpenAI再次精准攻击谷歌。如果谷歌I/O大会没有惊人的发布，也许这个风头会被OpenAI夺走。

从历史上看，OpenAI的每一个产品发布时间都非常准确。2024年2月15日，谷歌发布了多模式大模式Geminini。 1.5 Pro，根据官方检测数据，这款多模态大模型支持100万tokens，其性能远远超过GPT-4 Turbo。

不过，同一天，OpenAI发布了Sora，一个很大的文生视频模型。

Sora的发布再次让全网关注OpenAI作为文化视频产品，抢走了本该属于谷歌的亮点，也让谷歌Gemini 1.5 在模型发展史上，Pro的意义再次被低估。

事实上，现在回想起来，Sora的发布是一个彻头彻尾的“表演”项目，因为到目前为止，Sora还没有向公众开放。

除狙击谷歌外，我们还发现在OpenAI活动中，iPhone和MacBook都用于整个活动。在Mac桌面版的ChatGPT上，Pro进行了演示，这让我们不得不怀疑，他们是否在和苹果合作？

最近，有消息透露，苹果与OpenAI达成协议，今年将iPhone引入后者的一些技术。这样，苹果就可以作为iOS提供一个由ChatGPT支持的“聊天机器人” 18中人工智能功能的一部分。

事实上，面对AI技术的激烈竞争，苹果与OpenAI的合作让人们有理由期待一个更智能、更互动的Siri。这也可能是苹果巩固其在全球科技领域领先地位的重要一步。

元宇宙新声认为，当OpenAI推出GPT-4o时，它再次向大家证明了它们的营销思维，这不仅给竞争对手谷歌带来了压力，也向潜在合作伙伴苹果示好。但需要注意的是，谷歌的风头并不容易被夺走，反而有可能被它吃掉。苹果绝不是一家长期依赖其他厂商生存的公司。OpenAI的最大卖点是产品，比如传说中的“GPT-5”。

GPT-4o为何不是GPT-5？

当人们觉得GPT-4o进一步提升了大模型能力时，不禁要问，为什么传说中的GPT-5没有推出？它现在的研发进展如何？

我们认为，GPT-4o现阶段发布的原因是GPT-5的R&D肯定遇到了一些问题。如果没有，OpenAI可以直接推出GPT-5。一个科技企业必须尽早发布新产品，尤其是在模型领域。因此，OpenAI在开发GPT-5时，要么存在性能危机，要么存在成本问题。

但是，根据大家对OpenAI的理解，即使成本很高，只要效果足够惊艳，它肯定会推出。首先，我们应该威慑这个行业。即使GPT-5每天可以使用三个项目，我们也希望吸引所有人的注意力。因此，我们认为在GPT-5的研发过程中，可能会出现更多的性能或安全问题。

事实上，不仅仅是我们，网友们也纷纷在线催促OpenAI，快速发送GPT-5。

之前的采访中，OpenAICEOSam “关于GPT-5的发布日期，Altman也回答了GPT-5的问题，他指出：“关于GPT-5的发布日期，我们还没有确定具体的日期。在推出新型号时，我们对新型号持谨慎态度，并致力于确保它能达到我们的高标准。我们正在考虑选择一种新的发布策略，这可能与以前的方式不同。我们仍在讨论GPT-5的命名和发布策略，但可以肯定的是，我们致力于让这个新模型在发布时给用户带来卓越的感受。”

元宇宙新声认为，OpenAI在发展过程中肯定会遇到很多挑战。然而，我们希望他们始终保持坚强的意志和不断创新的精神，不断突破自我，实现全球AI龙头企业的期望。特别是在GPT系列模型的推出上，OpenAI引领了AI领域的新一轮技术革命。

写在最后

每一次技术飞跃都意味着人类智能与机器智能在人工智能领域的深度融合。GPT-作为OpenAI的最新旗舰模型，4o无疑在技术上取得了显著进步。其新的音频理解能力和对便利性的重视确实为用户提供了更自然、更便捷的互动体验。

在目前的发展中，OpenAI仍然面临着更多的机遇和挑战。然而，OpenAI将继续发挥引领作用，为人们社会的进步做出更多贡献，公司始终保持着坚强的意志和不断创新的精神。

本文来自微信微信官方账号“元宇宙新声”（ID:NFTMall），作者：元时文化，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

骁龙8高通重新设计 Gen4，只是为了在AI上压苹果？

马斯克裁掉了错误的人，特斯拉请回超充员工，投资36亿加快充电桩建设。

胖东来支持步步高，永辉的商业逻辑

大多数亿万富翁是如何赚钱的？

四块一杯，喜茶急了

项目推荐

康小虎百岁计划・健康大使招募计划

毛加健康

康老板 · 氧疗堂