GPT-OpenAI更关心情感价值,4o使力端侧应用。
GPT-4o里的“o”代表“omni”,也就是全能…
五月十三日,OpenAI春季发布会,CTO Mira Murati代表公司向世界发布了GPT-4o的ChatGPT旗舰版本。OpenAI在整个新闻发布会上使用了大量的空间,介绍了GPT-4o在移动终端和人类交互方面的先进水平,并通过现场与GPT-4o交流、演唱、即时答题等方式,强调了新模型多模态场景下的应用。
官方表示,在GPT-4o推出之前,当用户使用语音模式与ChatGPT交谈时,延迟时间分别为GPT-3.5的2.8秒和GPT-4的5.4秒。GPT-4o将这个延迟大幅缩短到320ms。
由于传统语音模式通过三种模式实现:音频转文本,GPT-3.5/GPT-4处理文本,然后将文本转换为音频。然而,GPT-4会失去信息,因为它不能直接处理语气、说话人和背景噪音,也不能导出笑声、唱歌或情绪。GPT-4o通过端到端训练了一个全新的模型,可以同时处理文本、视觉和音频输入导出。这意味着所有的输入和输出都由相同的神经网络处理。
多模式升级,GPT要做人类知音?
GPT-4o显著提高了性能和质量。得益于模型架构和训练方法的改进,GPT-4o在处理复杂的任务后显示出更高的准确性和更快的响应速度。OpenAI表示,GPT-4o的推出将为客户带来前所未有的感受,显著提高自然语言理解、对话系统、数据分析和编程协助的应用效果。
依据网站信息,GPT-在文本、推理和编码智能方面,4o实现了GPT-4 在多语言、音频和视觉功能方面,Turbo级别的性能也达到了新的高水位线。
文本评价:
就文本处理而言,GPT-4o在0-shot CoT(Chain of Thought) MMLU(常识性问题)等测试,获得88.7%的高分,创下新纪录。这表明GPT-4o仍然可以在没有提醒的情况下进行复杂的推理和回答问题。另外,传统的5-shot no-CoT 在MMLU检测中,GPT-4o还创下了87.2%的新高分。所有这些评估结果都是通过新的评估数据库进行的,以确保测试的稳定性和权威性。这不仅提高了模型推理能力,而且增加了其在广泛任务中的适用性。
音频性能ASR:
与Whisper-v3相比,在音频处理方面,GPT-4o自动语音识别(ASR)性能有了很大的提高,尤其是在资源匮乏的语言中。这意味着GPT-4o不仅可以处理主流语言,还可以在更多的学习环境中提供高质量的语音识别服务。
音频翻译性能:
与此同时,在线翻译,GPT-4o还建立了新的行业标准,在MLS基准测试中表现优于Whisper-v3,在跨语言交流和翻译方面表现出色。
M3Exam零样本结果:

就多语言和视觉评价而言,GPT-在M3Exam基准测试中,4o在所有语言测试中都表现出色。这说明GPT-4o不仅在单一的学习环境中表现出色,而且在多语言环境中处理复杂的任务,充分展示了其强大的跨语言逻辑和处理能力。
视频理解评价:
就视觉理解而言,GPT-4o在多个视觉感知标准上实现了最先进的性能。这些基准测试包括0-shot。MMMU、MathVista和ChartQA等,这意味着GPT-4o仍然可以保持高水平的视觉理解和推理能力,而无需样本学习。这一能力使GPT-4o在处理图像、图表和复杂的视觉信息时表现出色,进一步扩大了其在实际应用中的潜力。
GPT-4o在许多技术领域都取得了显著的性能提升。多模态能力使GPT-4o在更多的应用场景中具有更好的实用性。另外,OpenAI提供了一个方便的API接口,使开发者能够轻松地将GPT-4o集成到自己的应用中。另外,GPT-4o提供多种平台和编程语言,进一步提高其使用的灵活性和方便性。
使力端侧应用,OpenAI更关心情感价值
纵观整个新闻发布会,OpenAI的表现并希望人工智能技术能够更好地服务每个人的日常生活,而不是突出技术带来的行业变化。
也许这也是Sam Altman选择更有亲和力的女性CTO Mira 为什么Murati会主持这次发布会?
R&D负责人Barret除了实时语音对话功能外,还带来了GPT-4o实时处理数学问题的亮点。Barret手写了一个方程,并通过摄像头将其拍摄到GPT-4o中,并要求其进行在线指导。Barret在语音助手的引导下,更容易处理这个问题。
此外,OpenAI还展示了GPT-4o在代码、实时翻译等方面的各种问题。虽然有些测试是错误的,但整个发布会都是在相对轻松的环境中举行的。它不仅给公司或研究团队带来了新的研究内容和参考,也让更多的C端用户体验到了AI赋予的全新产品体验。
在PC端,OpenAI 推出了一个新的 macOS 应用程序旨在简化工作流程。该应用程序适用于免费和付费用户,可以无缝集成到用户在计算机上的操作中。用户可以通过简单的键盘快捷键立即向 ChatGPT 提问,并在应用程序中截取屏幕截屏进行讨论。
对于 Plus 对于用户来说,这个模型 macOS 应用程序将提供更多的功能和服务。在接下来的几个星期里,OpenAI 还计划将该应用程序推广到更广泛的用户群,并计划在今年晚些时候推出适合用户的应用程序。 Windows 为满足不同用户的需求,平台版本。
大型世家认为,C端市场在人工智能领域的商业化过程中起着非常重要的作用。作为一家领先的AI企业,OpenAI非常重视C端市场的体验。这种关注不仅是为了满足用户的需求,也是为了为C端市场的进一步商业化探索铺平道路。
在C端市场,客户的需求是多样化的,变化很快,所以智能化和个性化的体验也更好。不仅要优化模型算法,还要提高交互界面的友好性和便利性,保证用户在使用产品时能够享受到流畅自然的交互体验。
值得注意的是,OpenAI在2024年谷歌I/O大会前一天选择了“截胡”,这不仅体现了OpenAI对C端多模式大模式市场的重视,也揭示了OpenAI在模型商业竞争格局中的积极态度和战略思维。
这种行动无疑为OpenAI带来了更多的行业声音。在科技行业,声音通常与影响力、市场份额和商业潜力密切相关。通过这一策略,OpenAI成功吸引了大量用户和媒体的关注,进一步巩固了其在AI技术领域的领先水平。
此外,OpenAI的这一行动也直接指向C端多模态大模型的入口。伴随着技术的不断发展和应用场景的不断扩大,AI领域多模态大模型已成为一个重要的发展方向。它不仅可以处理文本、图像、音频等各种信息,还可以实现更智能、更自然的人机交互,给用户带来更方便、更丰富的感受。所以,谁能占据多模态大模型的入口,谁就有可能在未来的市场竞争中占据先机。
就大模型商业竞争格局而言,GPT-4o的免费开放无疑加剧了行业内的竞争,也展现了其对商业扩张的“欲望”。显然,谷歌、Meta等科技巨头不会坐以待毙。谷歌如何在这场“全新升级”的大型商战中反击?我相信很快就会揭晓。
本文来自微信微信官方账号“大模型世家”(ID:damoaihome),作者:王昊达,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




