谷歌I/O大会，目不暇接，但缺少王炸。

2024-05-18

五月份真的很热闹，OpenAI刚刚开始春季新闻发布会，谷歌I/O大会也如期举行。

说实话，在观看主题演讲直播的过程中，不禁会想到谷歌内部人员泄露的梗图——谷歌AI产品和项目的不同名称和相似名称令人印象深刻。

主题演讲的关键字仍然是AI，谷歌也自己在现场提到了“AI"的次数大约是120次。

谷歌宣布了一些备受关注的AI领域的新消息。

AI模型升级了2个，Gemini 1.5 Pro双下文窗口扩展到200万令牌，Gemini Nano增加了多模态理解能力；新发布了三个，更轻更快的Geminini。 1.5 Flash、新架下的Gemma PaliGemma，视觉语言模型2.0。

还有一个文生图模型迭代到Imagen 还发布了一款新的文生视频模型Veo。

在AI的实际应用延伸上，谷歌这次憋了不少招数。

在谷歌的核心产品搜索中，AI发布 Overviews，强化版AI搜索摘要功能将率先在美国上架。在谷歌搜索中，还将增加许多AI驱动功能，如制定计划、视频搜索等。

另外，Gemini还被塞进了谷歌照片和即时通讯应用Googlee 在Messages等商品中。

让人想起OpenAI刚刚发布的GPT-4o，它是谷歌新项目Projectt，旨在打造未来通用AI助手。 Astra，以及Gemin的新功能Live。Gemini Live支持和AI语音通话，预计今年将增加相机功能，并与AI即时“视频聊天”。

有点尴尬的是，在第三方直播中，观众大喊“无聊”，对眼花缭乱的名字感到困惑。CNET的评论员指出，谷歌需要提高讲故事的能力，而不是一上来就把所有的部分都做好。

A

OpenAI在谷歌I/O大会前一天召开了春季新闻发布会。原本流传的搜索产品并没有到来，但“人类等级响应”的GPT-4o却让人一窥新一代AI助手对抗的轮廓。

无法想像谷歌如果没有OpenAI的狙击手会有多开朗。

在这次谷歌I/O大会上，最令人惊讶的是AI助手的进展。

第一，谷歌公布了一个叫Project的新项目。 Astra。哈萨比斯，谷歌Deepmind负责人（Demis Hassabis）换句话说，这是一个全方位的助手项目，真正通向AGI。

与上一代谷歌AI助手Google相比， Assistant，Project Astra的AI助手方式多种多样，可以实时交互。没有烦人的觉醒词，也没有尴尬的延迟。看看你看到的，解决你的困难。

在演示视频中，用户可以打开手机镜头，瞄准任何物体，AI可以准确地说出物体的名称，比如“这是一个扬声器”。用户可以实时监控，同时在屏幕上画画，进一步向AI提问，比如画一个箭头指向扬声器的某个部分，询问是什么。当客户将镜头对准窗外时，AI会根据风景直接猜测客户所在的位置。

当摄像机匆匆经过场景时，顾客向“眼镜放在哪里”求助，助手准确识别并回答“你的眼镜在红苹果旁边”。

去年12月，Gemini发布了一段通过视频和AI互动的视频，但事后承认视频被编辑，所以谷歌经常被戳脊梁骨。

有意思的是，这一次，在视频演示的开头，谷歌郑重承诺，视频是即时、一次性拍摄的。

然而，谷歌还没有针对Project。 Astra给出了一个明确的时间线，只是含糊地说，今年晚点的一些功能将升级到Gemini和其它应用程序。

在AI助手方面，谷歌还有更加看得见、摸得着的进步。——Gemini Live，这就是Gemini产品的多模态功能扩展。Gemini Advanced用户可以用语音与Gemini进行对话，对话更加流畅自然，延迟更低，可随时中断，预计夏季上线。同时，谷歌还强调，今年将增加相机功能，实现实时监控。

可以说，这一次，谷歌被OpenAI精确狙击——GPT-不但早一天发布，而且现场演示，接下来的几个星期就会向所有客户开放。

B

最近外界流传OpenAI将推出搜索产品，与谷歌进行第一次世界大战，但这种情况并没有发生，谷歌本身也不断升级谷歌搜索。

搜索作为谷歌的核心产品，即将迎来大升级——搜索摘要功能AI Overview，Multi还包含多步推理功能-Step Reasoning、计划Planning在搜索中进行。 in Search，使用视频提问Askk With Video。

AI Overview，正如其名称所示，是指客户输入文本，点击搜索后，出现在顶部的信息摘要将是AI帮助整理的。它包括用自然语言总结和总结搜索结果，以及推荐链接。此前，谷歌称之为“搜索生成式感觉”（SGE）”。

Multi的多步推理-step reasoning可以用来制定计划。当用户在输入框中输入“周边最好的瑜伽馆”时，AI摘要会根据评分、课程、距离等信息对附近的瑜伽馆进行分类，更清晰地向客户展示。Planning in 在Search中，用户可以直接使用谷歌搜索进行计划，例如，如果需要在输入框中输入饮食计划，搜索引擎会给你一个按钮。

当你想搜索商品时，AI也会发挥作用。当你在输入框中输入“五英里通勤自行车上下坡”时，搜索引擎会给出购买自行车的想法和建议，并给出一些商品推荐。

由一次又一次的详细演示不难看出，谷歌已下定决心重塑搜索体验。

然而，AI搜索已经应用于许多竞争产品中，更多的Perplexity专门从事AI搜索。.AI。在2024年5月，谷歌对搜索感觉的重大升级，已不再能带来新鲜感。

其它应用生态的新动作更像是补充，比如Gmail邮箱，Google Gemini已经逐渐扩展到越来越多的谷歌应用程序，如Messages通信、谷歌照片等，有“Gemini无处不在”的趋势。

C

AI背后的模型，谷歌这次也是大手一挥，升级升级，新发布，Gemini家族日益壮大。

Geminini发布于三个月前。 1.5 从现在开始，Pro终于“发货”，并正式向订阅Geminini开放。 Advanced(类似于ChatGPT Plus）的用户。

Gemini 1.5 Pro支持前后文窗口100万token，今年晚点将增加到200万token。更加生动地说，升级后的Gemini 1.5 Pro可以同时处理22小时音频、2小时视频、超过60000行代码或140万个单词。

在新发布的模型中，Gemini 1.5 Flash最初有明星潜力，但是被OpenAI攻击。GPT-ChatGPT狙击Project驱动。 Astra和Gemini Live，GPT-Geminini4O狙击 Flash。

Gemini 1.5 Flash的主要推动更轻更快，反应速度和效率是其主要推动特征，具有多模态推理能力，擅长总结、聊天、图像、文档数据提取、视频字幕等。但是这个特征显然与GPT-4o发生了碰撞。

此外，谷歌的开源模型Gemma还发布了一个新版本，Gemma 2.0拥有270亿参数，并且扩展了PaliGemma的多模态版本。

谷歌在I/O大会上发布了三种多模态生成模式，包括图像、音乐和视频。

谷歌之前就有过文生图模型，这次做了迭代，发布了Imagen 3。Imagen 3对提示的认知更准确、更细致，可以生成更逼真的图像。在演示中，Imagen3从一个长长的提示中获得了8个细节，并在生成的图像中一一反映出来。

音乐生成模型Music AI Sandbox是全新的，用户可以使用小段Demo来扩展和增加音乐，也可以根据文本提醒来重新创作音乐，改变和调整音乐风格等等。由于谷歌旗下还有YouTube等UGC平台，这种模式将更好地为创作者服务。

事实上，更加引人注目的是谷歌新发布的文生视频模型Veo。

谷歌Veo可以接收文本、图像和视频提醒，生成1080p规格、60s高质量的长视频。

OpenAI在年初发布了Sora，虽然Sora还没有正式向公众开放使用，但是演示视频和小范围的测试已经使Sora受到了极大的追捧。Veo可以和Sora进行一场演示。

在这次I/O大会上，谷歌提交了一份真诚的“成就清单”，大型模型仍在进步和创新，AI应用生态也在不断发展。

然而，新词汇轰炸后，能给人留下深刻印象的东西并不多。与前一天发布的GPT-4oOpenAI相比，谷歌仍然缺少一次王炸，这让外界感觉科幻电影进入了现实。

本文来自微信微信官方账号“字母榜”（ID：wujicaijing），36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

诺基亚复古神机3210379元售完，谁在买？

从丰田看日本股市再次上涨的条件

接下来的短剧风口？播放量超过20亿，七只猩猩带火“反霸总”短剧

电车报废后，电池将被运回生产国：欧盟对中国电车的一记重拳

苹果在 iPad 另一个原因是广告失策？

项目推荐

康小虎百岁计划・健康大使招募计划

毛加健康

康老板 · 氧疗堂