再次打OpenAI「响指」,硬「杠」谷歌,「免费」开道

2024-05-17

ChatGPT和GPT-4-上周预告「就像法术一样」经过重大更新,OpenAI在北京时间14日凌晨通过直播向公众展示了这家全球最引人注目的人工智能模型公司的最新成果。


关于本次发布会的时间和内容,在直播之前就已经掀起了一场大会。「全民大预测」,可见OpenAI的影响。OpenAI去年11月6日 DevDay已经过去半年了,尽管OpenAI自年初以来发布了Sora等招式,但它已经围绕ChatGPT功能和模型商业模式展开,例如API调用。「渐进式改革」,但是行业更愿意看到OpenAI的系统更新。


在本次发布会上,OpenAI围绕ChatGPT和GPT-4模型层更新的亮点如下:


1、模型:推出全新旗舰GPT-4o模型(omni全能),显著提高了文本、视觉和音频处理能力;


2、互动:在GPT-4o能力的支持下,ChatGPT类似于更先进的AI语音助手,可以实现语音通话和实时视频交互。与此同时,OpenA宣布将推出桌面版ChatGPT。


3、价格:GPT-4o免费向所有人开放,与GPT-4 Turbo,API定价减半,但是速度是GPT-4 Turbo的两倍。


值得注意的是,本次发布会创始人Sam Altman没有出现,而且时间正好卡在谷歌I/O 在2024大会的前一天,OpenAI正在开发一种名为OpenAI的搜索引擎产品。「SearchGPT」。Altman在最新的公开采访中提到,「创建比谷歌更好的搜索引擎没有兴趣」。2024无疑是他们的关键一年,无论是像OpenAI这样的明星创业公司,还是像谷歌这样的巨头。


本文「硅基研究室」对OpenAI的主要升级方向及其竞争者的最新动态进行了梳理,试图回答两个主要问题:


1、OpenAI发布会的主要亮点是什么?它们的影响是什么?


2、OpenAI在最新格局上还面临着哪些挑战?


1、硬扛谷歌,OpenAI做了什么?


OpenAI发布会的亮点无疑是AI语音助手的最新模式和长期暗示。


新闻发布会前,除媒体爆料外,OpenAI「音频AGI研究负责人」Alexis Conneau用电影取代了他的社交媒体主页背景。《Her》,这部电影讲述了一个AI语音助手的情感故事。


Altman本人对语音交互也有自己的看法,在不久前的一次采访中,他提到:“我相信语音交互是未来交互技术的重要线索。如果能实现真正高质量的语音交互体验,将是一种全新的与计算机交互的方式。”新闻发布会结束后,他还在X上发了一条信息:Her”。



在直播活动中,OpenAI展示了这个实时语音助手的能力,不仅能快速响应,还能充满情感地讲故事和唱歌,模仿人的语气,甚至有情感感知的能力。


对GPT-4o模型结构进行了优化。旅行问创始人、CEO李志飞表示,GPT-4o更像是一个无所不能的虚拟个人助理(VPA),但这不是一个新概念。OpenAI之所以把VPA推到一个新的高度,是因为它完成了模型端到端、实时互动、多模式互动和更丝滑的感觉。


根据英伟达高级研究科学家Jim科学家Jim的说法,语音AI并非新鲜事物。 分割Fan,大多数语音AI将经历三个阶段:


首先是语音识别系统(Automatic Speech Recognition,ASR),把用户的音频语音转换成文本信息,例如(Speech-to-Text),例如,开源Whisper语音转文字模型于2022年9月推出。第二,chatGPT等大语言模型。第三,语音合成技术(TTS),ElevenLabs可自动将文本转换为语音,例如ElevenLabs自研的Eleven。 Multilingual系列模型,微软VALL-E系列等。


从ASR-LLM-OpenAI表示,TTS的过程,他们将找到它。「三个单独模型变成一个模型。」在GPT-4o的帮助下,OpenAI通过跨文本、视觉和音频端到端训练出了一种新的模式,使所有的输入输出都由同一神经网络处理。


不过,Jim Fan说,总的来说,从技术角度来说,这是一个数据和系统优化的问题。


OpenAI在语音AI方面的技术也有多年的布局,它不仅拥有开源语音识别项目 Whisper,Tortoise的作者Jamese也有热门的语音生成开源项目。 Betker。OpenAI今年3月推出的语音合成引擎Voicee Engine,一个人的声音可以通过15秒的语音样本复制,这也是ChatGPT的驱动力。 语音功能APP版本的核心技术。


声音模态虽然没有去年大语言模型和多模态的趋势那么火爆,但一直是备受关注的对象。行业玩家的进化主要分为三个方向:


首先,语音AI公司细分赛道,针对内容创作者,在内容制作过程中满足语音设计、复制和生成的需要,包括ElevenLabs等创业公司。第二,谷歌等大型科技企业,Meta、微软等。,都有语音AI储备,但由于安全、隐私等合规需求,大部分都是将语音AI技术结合到现有业务中,并没有直接推出商业产品。


另一类实际上是OpenAI所擅长的,每个人都期待着由大语言模型驱动的chatGPT能够实现自由的语音交互。(不久前,曾经风靡全网的GoogleAI初创公司Hume AI也是一种类似逻辑的商品)。


OpenAI为chatGPT增加语音助手功能并不奇怪:首先,从时间点来看,OpenAI已经经常向公众展示其新的模型技术,从年初Sora拉动的多模态浪潮开始。


第二,语音AI助手对OpenAI的好处也是多方面的:最直接的就是增加C端用户的吸引力,之前我们在《ChatGPT悄然变懒,OpenAI还能加速运行吗?”曾经说过,随着GPT-4用户体验的下降,特别是在专注于公司AI的情况下,一群忠实的用户,正在寻找替代方案。


另外,OpenAI需要更强大的AI故事来应对竞争。举例来说,去年OpenAI GPT显示在DevDay上。 Store,在OpenAI的预期中,并没有带来好的结果。


更重要的是,它可以为OpenAI提供更多的商业想象。功能更新围绕语音可以帮助OpenAI深入到更多的硬件配置中。随着科技巨头争相进入AI硬件的新竞争,这也是OpenAI稳定的商业化道路。


2、「停更」半年,AI变天?


每一次OpenAI更新,几乎所有的社交媒体都会猜测一些创业公司。「死亡」,这一次也不例外,有网友直接写了一份。「死亡名单」,包含情绪分析、翻译助手、心理健康等领域。


假如是去年11月6日发布的会议。「大更新」尽管OpenAI围绕ChatGPT和模型API进行了大量的计算,「小更新」,但是毕竟也过了半年。


人们常说:“AI一天,人间一年”,对于OpenAI来说,或许也有类似的体验。


对比一年前建立的OpenAI和Altman。「Flag」,人工智能的竞争可能比他们想象的更有戏剧性。


第一,就是竞争对手超出预期的扩张速度。被称作「OpenAI法国版」Mistral 据报道,AI已经获得了6亿美元的新一轮融资,目前估值达到60亿美元。在新一轮融资中,马斯克的人工智能创业公司xAI也被报道,估值约为180亿美元。Anthropic作为OpenAI最大的敌人,最近也推出了其首款移动应用程序,为用户提供Claude浏览 新渠道3模型。


第二,AI硬件计划错综复杂。据外媒报道,除与苹果合作外,Sam 前苹果设计师JonyyAltman正计划 Ive创建了一个神秘的企业,推出了一个人工智能驱动的个人设备。此前,Altman领先AI硬件创业公司Humane。AI推出了Humane的第一款产品 最近Pin上市的时候,由于感觉不好,受到了外媒的影响。「集体吐槽」。


然而,在这次直播演示中,OpenAI展示了它使用智能手机的能力。举例来说,chatGPT可以在扫描纸上的方程后,引导用户解决数学问题。Gergelyy之前的Uber和Skype工程师。 Orosz说:“很难看到苹果执行这种“奇妙”的手机体验。


幸运的是,这次新闻发布会至少让人们看到了OpenAI一直专注于他们。「主线任务」——新的模式,新的产品一直在迭代。Altman在直播之后,在博客中更新了OpenAI的新使命,他提到:第一,我们的使命是免费向公众提供功能强大的AI工具(或者以非常优惠的价格)。


这个信号是正确的,需要继续打硬仗。


本文来自微信微信官方账号“硅基研究室”(ID:gh作者:_439834ca1a7:kiki,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com