谷歌Gemini解锁新技能:AI读网页有了新玩法
基础模型正不断将更多的「外部能力」内置化。谷歌回归搜索老本行,此次要让AI像人一样「看见」网页。
这是谷歌不久前在Gemini API全面上线的URL Context功能(5月28日已在Google AI Studio中推出),该功能使Gemini模型能够访问并处理来自URL的内容,包括网页、PDF和图像。

Google产品负责人Logan Kilpatrick表示,这是他最喜欢的Gemini API工具,还推荐大家将其设为默认开启的「无脑选项」。

有人会问:这和平时把链接扔给AI对话框有啥本质区别?感觉一直都这么做。
区别在于处理深度和工作方式。平时扔链接,AI通常借助通用浏览工具或搜索引擎插件「看」网页,很可能只读取了网页的摘要或部分文本。
而URL Context不同,它是专为开发者设计的编程接口(API)。当开发者在程序里调用该功能时,是明确指令Gemini「把这个URL里的全部内容(上限高达34MB)作为回答下一个问题的唯一、权威的上下文」,Gemini会进行深度、完整的文档解析,理解整个文档的结构、内容和数据。
其能力清单如下:
深度解析PDF:能深刻理解PDF中的表格、文本结构甚至脚注。
多模态理解:能处理PNG、JPEG等图片,并理解其中的图表和图示。
支持多种网页文件:HTML、JSON、CSV等常见格式都能处理。
官方API文档有详细的配置教程,也可在Google AI Studio直接体验。

Towards Data Science上的一篇文章详细介绍了URL Context Grounding,作者Thomas Reid犀利地将其评价为「RAG的又一颗棺材钉」。

文章地址: https://towardsdatascience.com/googles-url-context-grounding-another-nail-in-rags-coffin/
RAG是过去几年提升大语言模型回答准确性、时效性和可靠性的主流技术。因大模型的知识截止于训练数据,RAG通过外部知识库为其提供最新、特定的信息。
传统的RAG流程较复杂,通常包括以下步骤:
提取内容:从数据源(如网站、文档)中抓取文本。
分块:将长文本切分成更小、更易处理的片段。
矢量化:用嵌入模型(Embedding Model)将文本块转换为数字向量,捕捉语义信息。
存储:将向量存储在专门的向量数据库中。
检索:用户提问时,系统先在向量数据库中搜索与问题最相关的文本块。
增强与生成:把检索到的相关文本块作为上下文信息,和原始问题一起输入大语言模型,生成更准确、有针对性的回答。

Thomas Reid指出,使用URL Context Grounding「无需提取URL文本和内容、分块、矢量化、存储等」。对于处理公开网络内容这一常见场景,它提供了极其简单的替代方案。
开发者无需花费大量时间和精力搭建和维护由多个组件(数据提取、向量数据库等)组成的复杂管道,只需几行代码就能实现更精准的效果。
在Thomas Reid提供的示例中,Gemini仅凭一个指向特斯拉50页财报PDF的URL,就准确无误地提取出了位于第4页表格中的「总资产」和「总负债」数据,这是仅靠摘要无法完成的任务。

自特斯拉SEC 10 - Q申报文件第4页内容。
以下是在Google AI Studio中的测试结果。

作者还测试了URL Context挑选其他信息的能力。在PDF末尾,有一封写给即将离开公司的员工的信,概述了他们的遣散条款。

信中提到的退出日期用星号(***)标记,屏蔽退出日期的原因在脚注中给出。
URL Context准确识别出了脚注中的内容。
根据所提供的文件,员工离职协议中的离职日期被标记为「***」,原因在于某些公司视为隐私或机密的特定非关键信息,已在公开文件中被有意略去。
该文件包含一条对此做法的澄清说明:「本文档中某些已识别的信息已被略去,因为这些信息并非关键信息,且属于公司视为隐私或机密的信息类型,并已用「***」标记以示省略之处。

据官网介绍,URL Context采用两步检索流程,以平衡速度、成本和对最新数据的访问。
用户提供URL时,该工具先尝试从内部索引缓存中获取内容,以提高速度和成本效益。若URL不在缓存中(如刚发布的页面),它会进行实时抓取。
其能力边界在官方介绍中有明确说明:
无法翻越「付费墙」:需要登录或付费才能访问的内容,它无法处理。
专用工具优先:YouTube视频、Google Docs等有专门API处理的内容,它不会涉足。
有明确的容量限制:单次请求最多处理20个URL,且单个URL内容上限为34MB。
价格方面,它按处理的内容Token数量计费。提供的URL内容越多,转换成输入Token的数量就越多,成本也相应增加。这或许会引导开发者进行更高效的应用设计,精确提供所需信息源,优化成本。
不过,URL Context Grounding的出现并非宣告RAG的终结,而是对其应用场景的重新划分。对于处理企业内网的海量私有文档、需要复杂检索逻辑和极致安全性的场景,构建一套自主可控的RAG系统依然不可或缺。
URL Context揭示了一个行业趋势:基础模型正在将越来越多的「外部能力」内置化。过去由应用层开发者承担的复杂数据处理工作,正逐步被底层模型的服务吸收。
本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:关注AI的机器之心,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




