一夜之间，谷歌亮出了十几款商品对战OpenAI：什么都有，只是没有惊喜

2024-05-18

昨晚OpenAI的科幻级演示结束后，每个人都在等待谷歌今晚的反击。

如果说2023年的I/O大会是谷歌在AI领域的最后一站，虽然今年的I/O大会上皮查依靠自己的Gemini等商品逐渐赶上了OpenAI，但情况并不令人愉快。在过去的一年里，即使使用了2个月的免费杀手，Gemini的用户数量也只是ChatGPT的五分之一。每次新产品上市，肯定会被OpenAI拦截，让谷歌成为AI界的汪峰。

所以皮查太需要一场亮眼的新闻发布会，取回属于谷歌的排面。

所以和OpenAI只有半个小时的发布会完全不一样，集中在产品介绍上。谷歌的I/O骨子里有一种武库拼死一战的意思。在两个小时的新闻发布会上，它一口气拿出了十几款新产品和升级产品，数量众多，管理饱满，全面标杆了OpenAI在AI各个领域的发展。

很多产品单看Demo还是有很好的完成率的，但是整个发布会并没有GPT-4o那么惊艳。因为他们发布的大部分东西都是追逐OpenAI现有的东西，所以没有人会对别人已经做过的东西感到惊讶。

最有可能带来惊艳感的新产品——Gemini 昨天的GPT-4o已经完成了Astra的戏份。

最后，想要展示肌肉的谷歌，依然被OpenAI四两拨千斤卸下。

从其搜索产品、模型产品等方面，我们更多地看到了谷歌的疲态，缺乏创新。

本来想看巅峰对决，可其实昨天这场对战已经结束了。

谷歌I/O开发者大会第一天全程回顾(中文同传版)

另外，虽然Gemini本身就是期货发货，但基本上谷歌的这次发布也是期货。看完整个新闻发布会就像逛完一个期房交易市场一样失落，心里甚至有点疑惑“别是烂尾楼吧”。这在谷歌商品序列中并不罕见。——Lydia，ESG，在半年左右的时间里，这些商品还没有完全向用户开放。AI领域日新月异，这一开放速度基本上与烂尾无疑。

我们理解谷歌急于秀肌肉，但是我们急于使用，不想看期货，也希望谷歌能够多了解。

由于产品太多，我们做了一个简单的表格整合，有14个与AI相关的产品发布和新升级相结合：

接下来，我们将沿着新闻发布会的四个主题来拆解这次I/O大会谷歌带来的各种商品。

01 基础模型：Gemini 1.5 Pro 期货成真，Light 提速增效，Gemini 2 显露可能

Geminini发布于三个月前。 1.5 终于，Pro不再是期货了！从今天开始，这将正式向订阅Geminnini开放 Advance用户。假设你以前没有白嫖，那么你可以在这两个月内免费使用。

除期货实现外，谷歌在这三个月没有完全铺开的时间里，也没有停止对其进行升级，四个基本模型最重要的层次都得到了加强。

首先是模型性能。谷歌提高了代码生成、逻辑判断和计划、多回合对话和音频和图像理解能力，并通过数据和算法进行了改进。最新版本 1.5 Pro Sota在多个benchmark中取得了成绩，谷歌扬眉吐气。

在文章的前后，谷歌还将新Geminini。 1.5 Pro 前后文窗口是业内最高的100万token 扩展到合300本书的200万token。三个月翻了一番，谷歌的表现证明了今年上下文的问题似乎已经不是门槛了。

对多模态支持，Gemini 现在，Pro已经弥补了语音理解的过去缺点。虽然它不像GPT-4o那样是一种原始的语音模式，但它最终是一个完整的模式，成为一个完整的身体。

对使用体验的指令跟随能力影响很大，Gemini 1.5 Pro也进行了一轮更新。如今，我们可以遵循越来越复杂和微妙的指令，包括指定商品级行为的指令(如角色、格式和风格)。现在你可以让Gemni假装你是一只猫。

尽管Geminini未公布二是但是四维打满，从数据上看，Geminini全面超越GPT4。 1.5 Pro仍然可以为谷歌提供更多的场景。

Geminini后续宣布 1.5 这场比赛的汪峰本峰就是Flash。它的主要特点——快速响应和昨天的GPT-4o完美碰车，本该有的惊艳感被彻底摧毁。

就功能而言，虽然它比较 1.5 Pro 重量轻，但也可以跨越大量信息进行多模式推理，擅长摘要、聊天、图像和视频字幕、长文档和表格的数据提取。但是不像GPT-4o青，Gemini 1.5 Flash仍然牺牲了一些性能来实现它的速度。

昨天的GPT-4o基本上等于没有写的技术报告无法解释的速度。谷歌诚实。从技术文档来看，这是因为 Flash 通过一个叫做“蒸馏”的过程，将最重要的知识和技能从更大的模型传递到更小更有效的模型，从而提高速度。

Agent需要支持这里展示的能力，所以谷歌的下一个重磅产品是Project。 Astra。谷歌将其定义为Agent战略的核心。

这是一个Agent 框架:为了真正有用，Agent需要像人类一样理解和回应复杂的世界——并记住它所看到和听到的，以理解前后的文本并付诸行动。此外，它还具有主动性、教学性和个性，使用户能够在不滞后或延迟的情况下自然地与其交流。低延迟需求使您能够将Astra理解为Geminini。 Light Agent方法。其最佳形式是谷歌展示的个人助手。

因此，为了让它更有用，谷歌可以通过持续编码视频帧，将视频和语音输入结合到事件的时间线上，缓存这些信息来更快地处理数据，从而实现快速记忆，也就是可以与视频互动，有时间记忆。谷歌还通过语音模型增强了Astra的声音，使得Agent的语气更加广泛，使得这些Agent能够更好地理解它们的前后文本，并在对话中迅速做出反应。

就演示而言，Astra的视觉理解能力确实令人印象深刻。可以理解薛定谔的猫这种梗，反馈速度也很快。

但是它并没有超越想象。整个演示的感觉就是看GPT-4o的视频交流Demo。而且远比GPT-4o期货，上线需要几个月的时间。

谷歌说，这不是几周，而是今年晚些时候。这个功能中只有“一些”产品会进入谷歌，可能是XR眼镜，也可能是自助手。

所以Flash被GPT-4o模型截胡，Astra 被GPT-4o的商品拦截。您认为OpenAI没有内鬼知道谷歌 I我绝对不相信/O的信息。OpenAI做了一件事，就是证明它能做到，而且比你做得更好，出得比你早。

然而，如果我们继续思考，OpenAI在谷歌发布产品后会有完全不同的升级来切断胡谷歌的受欢迎程度。这一次，我们在谷歌之前做了一个功能完全相同的产品来打破它带来的惊喜。这不禁让人怀疑OpenAI是否真的没有新产品储备。

除两个核心模型的更新外，谷歌还宣布了Gemmama，前一场大火的开源模型。 2.0版本，270亿参数。并且扩展了PaliGemma这一多模态版本。因为Llama3 官方还没有微调多模式，这大概是目前官方开源多模式最强的模式了。根据谷歌的说法，它的发展受到了Pali-3的影响。

02 多模式生成模式：谷歌版Sora相当惊艳，其它都有点常规。

除新公开的文生视频模型外，谷歌还推出了文生图像模型Imagen 3。根据细节拟真度和Midjourney 与Dalle-3相比，v6可以达到同样的水平。而且在跟踪细节方面也要更加细致。

在音乐生成方面，去年惊人的期货Lydia仍然是期货，直到这次发布会。谷歌给他增加了一个新的扩张。 Music AI Sandbox，一套音乐 AI 工具。这类工具旨在为创意打开一个新的游乐场，让人们重新开始创造新的器乐部分，以新的方式转换声音等等。

接着是酷炫的电影，看上去比Suno还要厉害。但是我不需要，所以还是可以用的很厉害。

最后，谷歌介绍了自己的视频生成模型——Veo 。这是谷歌之前一系列视频生成尝试的大成者：与WALT融为一体、VideoPoet、在Sora之前发布的Lumiere这些明星文生视频模型的优势。

就能力而言，它相当能打，能产生高质量的产品。 1080p 分辨率视频，可以超过一分钟，包括广泛的电影和视觉风格。

Veo生成的场景在示例视频中是相当一致和连贯的：人物、动物和物体在镜头中非常真实地移动。

谷歌还强调，Veo 具有高级理解自然语言和视觉语义的能力，可以生成与用户创意愿景紧密匹配的视频——准确呈现详细的长提醒，捕捉情绪。Veo甚至可以理解电影术语，比如“延迟”或者“航拍镜头”。

质量方面，谷歌的Veo和Sora有一战之力。但不得不说，谷歌真的不擅长演示。在整个演示过程中，他们放了一个追逐长度的汽车生成视频，不是全屏，看不清细节。其他都是小片段，小幅度，细节模糊。震撼力受到影响。

但是，和Sora一样，Veo 只会把作为 VideoFX 个人预览版提供给少数创作者，普通用户可以报名加入替补序列。然而，这也表明，有了VEo，谷歌和OpenAI已经进入了同一个竞争，谁能首先降低成本，将这项技术推向toC领域。

03 AI搜索：多模态最强，但创新有限

AI搜索可以算是谷歌的必争之地。面对来势汹汹的新秀Perplexity，他们自称要取代谷歌搜索，谷歌即使不需要AI，也要保留后者。

从去年开始，虽然新兴的AI搜索获得了很多客户，但基本上没有动摇谷歌搜索的基础。所以谷歌也是一副不慌不忙的样子:自去年5月以来，其AI搜索服务ESG终于从今天开始向公众开放使用了一整年。这个更强大的AI搜索引擎被谷歌命名为AI Overview，但是仅限于美国，其他国家还要排队等待开放。

就Demo展示而言，谷歌搜索在功能上没有太多的创新，主要集中在多模式上。

第一，用户可以通过简化语言或者更详细地分解来调整。 AI 简述搜索结果。这一功能并不新颖，目前主流的AI搜索产品也将区分快速回复和更深入的研究方法。

其次，借助 Gemini 多步推理能力，AI 搜索可以一次处理复杂的多步，甚至多个问题。例如，当顾客寻找新的瑜伽或普拉提工作室时，顾客希望找到受当地人欢迎、方便用户通勤的选项，并提供新会员折扣。通过谷歌AI搜索，用户可以通过搜索查找波士顿最好的瑜伽或普拉提工作室，并显示其入门优惠和从众。 Beacon Hill 详细的步行时间信息”问题得到了正确的答案。

它也是目前其它AI搜索产品正在努力克服的一个方向。在这方面，谷歌很可能凭借模型优势得到更好的处理。

AI搜索的计划能力也建立在多步推理能力之上。通过AI搜索中的计划功能，您可以在搜索中直接获得一个完整的计划。举例来说，搜索类似于“为一群人制定一个容易准备的三天餐饮计划”，你会得到一个起点，包括各种来自网络的食谱。其它搜索软件暂时还没有专业化的能力。但对可以联网的ChatGPT来说，这并不难。谷歌搜索机构当然更好看，也可以直接连接，客户体验更好。

GPT-4o生成版本

生成版本的谷歌

最终是灵感延伸功能，即AI搜索正在创建一个 AI 组织结果页面让你更容易探索。问完一个问题，谷歌搜索会延伸到其他你可能感兴趣的结果。根据独特的结果。 AI 生成标题分类，展示一般角度和内容类型。这种联想搜索能力已经成为AI搜索的标准，但谷歌已经更好地结构化了这一功能。

上述功能，其他AI搜索都可以做，但是谷歌的结构化和界面做得最好。仅此而已。

最后，其它AI搜索暂时无法实现的是多模态搜索。

谷歌依靠Gemini的多模态功能，可以用声音搜索歌曲，用图片搜索商品。你甚至可以使用Circle to Secarch 在照片中标出部分功能进行搜索。

AI也可以结合视频搜索。谷歌举了一个案例。例如，用户在旧货店购买了一台唱片机，但打开后无法工作，含有针头的金属部件不小心漂移了。使用视频搜索可以节省客户找到合适的单词和句子来描述这个问题的时间和麻烦。

但是Perplexity们，总有一天会使用多模态模型。当我看到他们用看图视花作为例子来介绍谷歌搜索的多模态功能时，我首先想到的是微信扫描，所以我做不到(虽然原理不同)。

04 模型产品升级：GPTs谷歌版上线，生态刚刚跟上。

模特产品可以说是最令人失望的一环。没有创意，还有多少让人看得出谷歌的传统趋势。

首先，Wrokspace与Gemini相结合。

你可以通过 Side Panel(一个可以唤起Gemini的侧栏)总结一系列功能邮件，可以总结你的账单，形成一个Sheet。OK，我去年看到了。自动回复邮件。我去年看到了。

每一个都进行了小的升级，比如回复邮件可以从确定、拒绝、搁置三种可能性中选择。但是...现场的掌声很少。

包括社交软件在内的其他更新的虚拟员工Chip基本没有超过我们前几个月在中国看到的各种办公软件Agent的演示。

总的来说，谷歌在去年的I/O大会上展示的概率可以在下个月实现。因为Side Panel这个产品下个月才公开开放。

Gminiini是模型产品中最重要的更新。 Live。它是一种移动对话助手产品， Gemini Live，用户可以与 Gemini 交谈，并选择各种自然的声音来回应。顾客甚至可以按照自己的节奏说话，或者半途而废地回答问题，就像你在任何对话中一样。并且在今年晚些时候，用户可以在上线时使用摄像头，并且可以打开周围所见内容的对话。

好吧，再一次GPT-4o的即视感。

其它几款产品的升级实际上是追求特征。

Gems出现的时候真的有点尴尬，整个场景都是沉默的，因为大家一听介绍就知道这是谷歌的GPTs，还是一个版本慢了半年。用户可以创建定制的Geminni。描述希望 Gem 做什么，希望它怎么回应，比如“你是我的跑步教练，给我一个日常的跑步计划，并且保持积极、乐观、鼓励的态度。”，Gemini 根据这些指示进行增强，以创建一个符合你特定需要的指示。 Gem。

所以只能依靠Prompt来制定，没有外部工具，没有工作流程。

这个产品属于Agent产品，发布迟了半年，功能不如GPTs。

API扩展功能将于去年上线，例如正在推出的API扩展功能。 YouTube Music 拓展、Google Calendar、Tasks 和 Keep。全部都是谷歌自己的服务。老实说，在这次扩展之前，谷歌的插件库就是这样五个插件，完全是少得可怜。即便加上这些新的扩展，API库也完全不能与其他Agent产品相提并论。

(在新闻发布会之前，只有这些扩展可用)

从这个角度来看，谷歌墨守成规的沙文心态在自己的生态中一目了然。

05 Andriod AI：GPT桌面版占尽了风景

除了 Cricle in 此次Androidroid之外，Search聚焦于具体照片的局部多模态搜索。 AI的关键是介绍Gemini的手机应用程序，可以与手机正在展示的内容进行互动。例如，从你正在看YouTube频道反馈的角度来看，阅读打开的PDF。

挺好的，GPT-昨天4o的桌面版都做到了，而且和这里的Android相比，实际上是读取打开的文档，GPT-4o版本更像是和你一起看着桌面上发生的一切。另外，它还有精彩的声音。

06 硬件：TPU稳步升级

本次发布会上，谷歌最新的TPU是所有AI模型。——Trillium TPU训练。与上一代相比，它的进步仍然十分明显。Trillium完成了每个芯片峰值计算特性。 4.7 倍提高，比 TPU v5e 增加了一倍。高带宽内存（HBM）容量与带宽和芯片之间的连接（ICI）它的带宽也比v5e翻了一番。

此外，Trillium 配置第三代 SparseCore，它是一种特殊的加速器，用于处理超大嵌入，在先进的排序和推荐的工作负荷中更为常见。Trillium TPU 使下一波基础模型训练更快，并以更低的延迟和更低的成本为这些模型提供服务。Trillium 可以扩展到一个包括 256 个 TPU 单高带宽低延迟 Pod。

另外，Trillium能耗。 TPU 比 TPU v5e 能源效率提高了 67% 上述，节电能力一流。