谷歌I/O大会,目不暇接,但缺少王炸。
五月份真的很热闹,OpenAI刚刚开始春季新闻发布会,谷歌I/O大会也如期举行。
说实话,在观看主题演讲直播的过程中,不禁会想到谷歌内部人员泄露的梗图——谷歌AI产品和项目的不同名称和相似名称令人印象深刻。
主题演讲的关键字仍然是AI,谷歌也自己在现场提到了“AI"的次数大约是120次。
谷歌宣布了一些备受关注的AI领域的新消息。
AI模型升级了2个,Gemini 1.5 Pro双下文窗口扩展到200万令牌,Gemini Nano增加了多模态理解能力;新发布了三个,更轻更快的Geminini。 1.5 Flash、新架下的Gemma PaliGemma,视觉语言模型2.0。
还有一个文生图模型迭代到Imagen 还发布了一款新的文生视频模型Veo。
在AI的实际应用延伸上,谷歌这次憋了不少招数。
在谷歌的核心产品搜索中,AI发布 Overviews,强化版AI搜索摘要功能将率先在美国上架。在谷歌搜索中,还将增加许多AI驱动功能,如制定计划、视频搜索等。
另外,Gemini还被塞进了谷歌照片和即时通讯应用Googlee 在Messages等商品中。
让人想起OpenAI刚刚发布的GPT-4o,它是谷歌新项目Projectt,旨在打造未来通用AI助手。 Astra,以及Gemin的新功能Live。Gemini Live支持和AI语音通话,预计今年将增加相机功能,并与AI即时“视频聊天”。
有点尴尬的是,在第三方直播中,观众大喊“无聊”,对眼花缭乱的名字感到困惑。CNET的评论员指出,谷歌需要提高讲故事的能力,而不是一上来就把所有的部分都做好。
A
OpenAI在谷歌I/O大会前一天召开了春季新闻发布会。原本流传的搜索产品并没有到来,但“人类等级响应”的GPT-4o却让人一窥新一代AI助手对抗的轮廓。
无法想像谷歌如果没有OpenAI的狙击手会有多开朗。
在这次谷歌I/O大会上,最令人惊讶的是AI助手的进展。
第一,谷歌公布了一个叫Project的新项目。 Astra。哈萨比斯,谷歌Deepmind负责人(Demis Hassabis)换句话说,这是一个全方位的助手项目,真正通向AGI。
与上一代谷歌AI助手Google相比, Assistant,Project Astra的AI助手方式多种多样,可以实时交互。没有烦人的觉醒词,也没有尴尬的延迟。看看你看到的,解决你的困难。
在演示视频中,用户可以打开手机镜头,瞄准任何物体,AI可以准确地说出物体的名称,比如“这是一个扬声器”。用户可以实时监控,同时在屏幕上画画,进一步向AI提问,比如画一个箭头指向扬声器的某个部分,询问是什么。当客户将镜头对准窗外时,AI会根据风景直接猜测客户所在的位置。
当摄像机匆匆经过场景时,顾客向“眼镜放在哪里”求助,助手准确识别并回答“你的眼镜在红苹果旁边”。
去年12月,Gemini发布了一段通过视频和AI互动的视频,但事后承认视频被编辑,所以谷歌经常被戳脊梁骨。
有意思的是,这一次,在视频演示的开头,谷歌郑重承诺,视频是即时、一次性拍摄的。
然而,谷歌还没有针对Project。 Astra给出了一个明确的时间线,只是含糊地说,今年晚点的一些功能将升级到Gemini和其它应用程序。
在AI助手方面,谷歌还有更加看得见、摸得着的进步。——Gemini Live,这就是Gemini产品的多模态功能扩展。Gemini Advanced用户可以用语音与Gemini进行对话,对话更加流畅自然,延迟更低,可随时中断,预计夏季上线。同时,谷歌还强调,今年将增加相机功能,实现实时监控。
可以说,这一次,谷歌被OpenAI精确狙击——GPT-不但早一天发布,而且现场演示,接下来的几个星期就会向所有客户开放。
B
最近外界流传OpenAI将推出搜索产品,与谷歌进行第一次世界大战,但这种情况并没有发生,谷歌本身也不断升级谷歌搜索。
搜索作为谷歌的核心产品,即将迎来大升级——搜索摘要功能AI Overview,Multi还包含多步推理功能-Step Reasoning、计划Planning在搜索中进行。 in Search,使用视频提问Askk With Video。
AI Overview,正如其名称所示,是指客户输入文本,点击搜索后,出现在顶部的信息摘要将是AI帮助整理的。它包括用自然语言总结和总结搜索结果,以及推荐链接。此前,谷歌称之为“搜索生成式感觉”(SGE)”。
Multi的多步推理-step reasoning可以用来制定计划。当用户在输入框中输入“周边最好的瑜伽馆”时,AI摘要会根据评分、课程、距离等信息对附近的瑜伽馆进行分类,更清晰地向客户展示。Planning in 在Search中,用户可以直接使用谷歌搜索进行计划,例如,如果需要在输入框中输入饮食计划,搜索引擎会给你一个按钮。
当你想搜索商品时,AI也会发挥作用。当你在输入框中输入“五英里通勤自行车上下坡”时,搜索引擎会给出购买自行车的想法和建议,并给出一些商品推荐。
由一次又一次的详细演示不难看出,谷歌已下定决心重塑搜索体验。
然而,AI搜索已经应用于许多竞争产品中,更多的Perplexity专门从事AI搜索。.AI。在2024年5月,谷歌对搜索感觉的重大升级,已不再能带来新鲜感。
其它应用生态的新动作更像是补充,比如Gmail邮箱,Google Gemini已经逐渐扩展到越来越多的谷歌应用程序,如Messages通信、谷歌照片等,有“Gemini无处不在”的趋势。
C
AI背后的模型,谷歌这次也是大手一挥,升级升级,新发布,Gemini家族日益壮大。
Geminini发布于三个月前。 1.5 从现在开始,Pro终于“发货”,并正式向订阅Geminini开放。 Advanced(类似于ChatGPT Plus)的用户。
Gemini 1.5 Pro支持前后文窗口100万token,今年晚点将增加到200万token。更加生动地说,升级后的Gemini 1.5 Pro可以同时处理22小时音频、2小时视频、超过60000行代码或140万个单词。
在新发布的模型中,Gemini 1.5 Flash最初有明星潜力,但是被OpenAI攻击。GPT-ChatGPT狙击Project驱动。 Astra和Gemini Live,GPT-Geminini4O狙击 Flash。
Gemini 1.5 Flash的主要推动更轻更快,反应速度和效率是其主要推动特征,具有多模态推理能力,擅长总结、聊天、图像、文档数据提取、视频字幕等。但是这个特征显然与GPT-4o发生了碰撞。
此外,谷歌的开源模型Gemma还发布了一个新版本,Gemma 2.0拥有270亿参数,并且扩展了PaliGemma的多模态版本。
谷歌在I/O大会上发布了三种多模态生成模式,包括图像、音乐和视频。
谷歌之前就有过文生图模型,这次做了迭代,发布了Imagen 3。Imagen 3对提示的认知更准确、更细致,可以生成更逼真的图像。在演示中,Imagen3从一个长长的提示中获得了8个细节,并在生成的图像中一一反映出来。
音乐生成模型Music AI Sandbox是全新的,用户可以使用小段Demo来扩展和增加音乐,也可以根据文本提醒来重新创作音乐,改变和调整音乐风格等等。由于谷歌旗下还有YouTube等UGC平台,这种模式将更好地为创作者服务。
事实上,更加引人注目的是谷歌新发布的文生视频模型Veo。
谷歌Veo可以接收文本、图像和视频提醒,生成1080p规格、60s高质量的长视频。
OpenAI在年初发布了Sora,虽然Sora还没有正式向公众开放使用,但是演示视频和小范围的测试已经使Sora受到了极大的追捧。Veo可以和Sora进行一场演示。
在这次I/O大会上,谷歌提交了一份真诚的“成就清单”,大型模型仍在进步和创新,AI应用生态也在不断发展。
然而,新词汇轰炸后,能给人留下深刻印象的东西并不多。与前一天发布的GPT-4oOpenAI相比,谷歌仍然缺少一次王炸,这让外界感觉科幻电影进入了现实。
本文来自微信微信官方账号“字母榜”(ID:wujicaijing),36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com