GPT-OpenAI更关心情感价值，4o使力端侧应用。

2024-05-18

GPT-4o里的“o”代表“omni”，也就是全能…

五月十三日，OpenAI春季发布会，CTO Mira Murati代表公司向世界发布了GPT-4o的ChatGPT旗舰版本。OpenAI在整个新闻发布会上使用了大量的空间，介绍了GPT-4o在移动终端和人类交互方面的先进水平，并通过现场与GPT-4o交流、演唱、即时答题等方式，强调了新模型多模态场景下的应用。

官方表示，在GPT-4o推出之前，当用户使用语音模式与ChatGPT交谈时，延迟时间分别为GPT-3.5的2.8秒和GPT-4的5.4秒。GPT-4o将这个延迟大幅缩短到320ms。

由于传统语音模式通过三种模式实现：音频转文本，GPT-3.5/GPT-4处理文本，然后将文本转换为音频。然而，GPT-4会失去信息，因为它不能直接处理语气、说话人和背景噪音，也不能导出笑声、唱歌或情绪。GPT-4o通过端到端训练了一个全新的模型，可以同时处理文本、视觉和音频输入导出。这意味着所有的输入和输出都由相同的神经网络处理。

多模式升级，GPT要做人类知音？

GPT-4o显著提高了性能和质量。得益于模型架构和训练方法的改进，GPT-4o在处理复杂的任务后显示出更高的准确性和更快的响应速度。OpenAI表示，GPT-4o的推出将为客户带来前所未有的感受，显著提高自然语言理解、对话系统、数据分析和编程协助的应用效果。

依据网站信息，GPT-在文本、推理和编码智能方面，4o实现了GPT-4 在多语言、音频和视觉功能方面，Turbo级别的性能也达到了新的高水位线。

文本评价：

就文本处理而言，GPT-4o在0-shot CoT（Chain of Thought） MMLU(常识性问题)等测试，获得88.7%的高分，创下新纪录。这表明GPT-4o仍然可以在没有提醒的情况下进行复杂的推理和回答问题。另外，传统的5-shot no-CoT 在MMLU检测中，GPT-4o还创下了87.2%的新高分。所有这些评估结果都是通过新的评估数据库进行的，以确保测试的稳定性和权威性。这不仅提高了模型推理能力，而且增加了其在广泛任务中的适用性。

音频性能ASR：

与Whisper-v3相比，在音频处理方面，GPT-4o自动语音识别（ASR）性能有了很大的提高，尤其是在资源匮乏的语言中。这意味着GPT-4o不仅可以处理主流语言，还可以在更多的学习环境中提供高质量的语音识别服务。

音频翻译性能：

与此同时，在线翻译，GPT-4o还建立了新的行业标准，在MLS基准测试中表现优于Whisper-v3，在跨语言交流和翻译方面表现出色。

M3Exam零样本结果：

就多语言和视觉评价而言，GPT-在M3Exam基准测试中，4o在所有语言测试中都表现出色。这说明GPT-4o不仅在单一的学习环境中表现出色，而且在多语言环境中处理复杂的任务，充分展示了其强大的跨语言逻辑和处理能力。

视频理解评价：

就视觉理解而言，GPT-4o在多个视觉感知标准上实现了最先进的性能。这些基准测试包括0-shot。MMMU、MathVista和ChartQA等，这意味着GPT-4o仍然可以保持高水平的视觉理解和推理能力，而无需样本学习。这一能力使GPT-4o在处理图像、图表和复杂的视觉信息时表现出色，进一步扩大了其在实际应用中的潜力。

GPT-4o在许多技术领域都取得了显著的性能提升。多模态能力使GPT-4o在更多的应用场景中具有更好的实用性。另外，OpenAI提供了一个方便的API接口，使开发者能够轻松地将GPT-4o集成到自己的应用中。另外，GPT-4o提供多种平台和编程语言，进一步提高其使用的灵活性和方便性。

使力端侧应用，OpenAI更关心情感价值

纵观整个新闻发布会，OpenAI的表现并希望人工智能技术能够更好地服务每个人的日常生活，而不是突出技术带来的行业变化。

也许这也是Sam Altman选择更有亲和力的女性CTO Mira 为什么Murati会主持这次发布会？

R&D负责人Barret除了实时语音对话功能外，还带来了GPT-4o实时处理数学问题的亮点。Barret手写了一个方程，并通过摄像头将其拍摄到GPT-4o中，并要求其进行在线指导。Barret在语音助手的引导下，更容易处理这个问题。

此外，OpenAI还展示了GPT-4o在代码、实时翻译等方面的各种问题。虽然有些测试是错误的，但整个发布会都是在相对轻松的环境中举行的。它不仅给公司或研究团队带来了新的研究内容和参考，也让更多的C端用户体验到了AI赋予的全新产品体验。

在PC端，OpenAI 推出了一个新的 macOS 应用程序旨在简化工作流程。该应用程序适用于免费和付费用户，可以无缝集成到用户在计算机上的操作中。用户可以通过简单的键盘快捷键立即向 ChatGPT 提问，并在应用程序中截取屏幕截屏进行讨论。

对于 Plus 对于用户来说，这个模型 macOS 应用程序将提供更多的功能和服务。在接下来的几个星期里，OpenAI 还计划将该应用程序推广到更广泛的用户群，并计划在今年晚些时候推出适合用户的应用程序。 Windows 为满足不同用户的需求，平台版本。

大型世家认为，C端市场在人工智能领域的商业化过程中起着非常重要的作用。作为一家领先的AI企业，OpenAI非常重视C端市场的体验。这种关注不仅是为了满足用户的需求，也是为了为C端市场的进一步商业化探索铺平道路。

在C端市场，客户的需求是多样化的，变化很快，所以智能化和个性化的体验也更好。不仅要优化模型算法，还要提高交互界面的友好性和便利性，保证用户在使用产品时能够享受到流畅自然的交互体验。

值得注意的是，OpenAI在2024年谷歌I/O大会前一天选择了“截胡”，这不仅体现了OpenAI对C端多模式大模式市场的重视，也揭示了OpenAI在模型商业竞争格局中的积极态度和战略思维。

这种行动无疑为OpenAI带来了更多的行业声音。在科技行业，声音通常与影响力、市场份额和商业潜力密切相关。通过这一策略，OpenAI成功吸引了大量用户和媒体的关注，进一步巩固了其在AI技术领域的领先水平。

此外，OpenAI的这一行动也直接指向C端多模态大模型的入口。伴随着技术的不断发展和应用场景的不断扩大，AI领域多模态大模型已成为一个重要的发展方向。它不仅可以处理文本、图像、音频等各种信息，还可以实现更智能、更自然的人机交互，给用户带来更方便、更丰富的感受。所以，谁能占据多模态大模型的入口，谁就有可能在未来的市场竞争中占据先机。

就大模型商业竞争格局而言，GPT-4o的免费开放无疑加剧了行业内的竞争，也展现了其对商业扩张的“欲望”。显然，谷歌、Meta等科技巨头不会坐以待毙。谷歌如何在这场“全新升级”的大型商战中反击？我相信很快就会揭晓。

本文来自微信微信官方账号“大模型世家”（ID:damoaihome），作者：王昊达，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

关闭普华永道的传闻，有些是真的，有些是假的？

户外新宠小物钓鱼，迷你钓鱼的不同生意。

三月份德国新能源汽车销量全面下滑，欧洲充电桩建设需要“八倍速度”

两个月席卷全国，学生们的免费玩具，逼疯了无数烟民。

广东省一流本科专业-教育技术(师范)

项目推荐

AI云印侠

宾果智能

幸福绩效