谷歌Gemini解锁新技能：AI读网页有了新玩法

2025-09-03

基础模型正不断将更多的「外部能力」内置化。谷歌回归搜索老本行，此次要让AI像人一样「看见」网页。

这是谷歌不久前在Gemini API全面上线的URL Context功能（5月28日已在Google AI Studio中推出），该功能使Gemini模型能够访问并处理来自URL的内容，包括网页、PDF和图像。

Google产品负责人Logan Kilpatrick表示，这是他最喜欢的Gemini API工具，还推荐大家将其设为默认开启的「无脑选项」。

有人会问：这和平时把链接扔给AI对话框有啥本质区别？感觉一直都这么做。

区别在于处理深度和工作方式。平时扔链接，AI通常借助通用浏览工具或搜索引擎插件「看」网页，很可能只读取了网页的摘要或部分文本。

而URL Context不同，它是专为开发者设计的编程接口（API）。当开发者在程序里调用该功能时，是明确指令Gemini「把这个URL里的全部内容（上限高达34MB）作为回答下一个问题的唯一、权威的上下文」，Gemini会进行深度、完整的文档解析，理解整个文档的结构、内容和数据。

其能力清单如下：

深度解析PDF：能深刻理解PDF中的表格、文本结构甚至脚注。

多模态理解：能处理PNG、JPEG等图片，并理解其中的图表和图示。

支持多种网页文件：HTML、JSON、CSV等常见格式都能处理。

官方API文档有详细的配置教程，也可在Google AI Studio直接体验。

Towards Data Science上的一篇文章详细介绍了URL Context Grounding，作者Thomas Reid犀利地将其评价为「RAG的又一颗棺材钉」。

文章地址： https://towardsdatascience.com/googles-url-context-grounding-another-nail-in-rags-coffin/

RAG是过去几年提升大语言模型回答准确性、时效性和可靠性的主流技术。因大模型的知识截止于训练数据，RAG通过外部知识库为其提供最新、特定的信息。

传统的RAG流程较复杂，通常包括以下步骤：

提取内容：从数据源（如网站、文档）中抓取文本。
分块：将长文本切分成更小、更易处理的片段。
矢量化：用嵌入模型（Embedding Model）将文本块转换为数字向量，捕捉语义信息。
存储：将向量存储在专门的向量数据库中。
检索：用户提问时，系统先在向量数据库中搜索与问题最相关的文本块。
增强与生成：把检索到的相关文本块作为上下文信息，和原始问题一起输入大语言模型，生成更准确、有针对性的回答。

Thomas Reid指出，使用URL Context Grounding「无需提取URL文本和内容、分块、矢量化、存储等」。对于处理公开网络内容这一常见场景，它提供了极其简单的替代方案。

开发者无需花费大量时间和精力搭建和维护由多个组件（数据提取、向量数据库等）组成的复杂管道，只需几行代码就能实现更精准的效果。

在Thomas Reid提供的示例中，Gemini仅凭一个指向特斯拉50页财报PDF的URL，就准确无误地提取出了位于第4页表格中的「总资产」和「总负债」数据，这是仅靠摘要无法完成的任务。

自特斯拉SEC 10 - Q申报文件第4页内容。

以下是在Google AI Studio中的测试结果。

作者还测试了URL Context挑选其他信息的能力。在PDF末尾，有一封写给即将离开公司的员工的信，概述了他们的遣散条款。

信中提到的退出日期用星号（***）标记，屏蔽退出日期的原因在脚注中给出。

URL Context准确识别出了脚注中的内容。

根据所提供的文件，员工离职协议中的离职日期被标记为「***」，原因在于某些公司视为隐私或机密的特定非关键信息，已在公开文件中被有意略去。
该文件包含一条对此做法的澄清说明：「本文档中某些已识别的信息已被略去，因为这些信息并非关键信息，且属于公司视为隐私或机密的信息类型，并已用「***」标记以示省略之处。

据官网介绍，URL Context采用两步检索流程，以平衡速度、成本和对最新数据的访问。

用户提供URL时，该工具先尝试从内部索引缓存中获取内容，以提高速度和成本效益。若URL不在缓存中（如刚发布的页面），它会进行实时抓取。

其能力边界在官方介绍中有明确说明：

无法翻越「付费墙」：需要登录或付费才能访问的内容，它无法处理。

专用工具优先：YouTube视频、Google Docs等有专门API处理的内容，它不会涉足。

有明确的容量限制：单次请求最多处理20个URL，且单个URL内容上限为34MB。

价格方面，它按处理的内容Token数量计费。提供的URL内容越多，转换成输入Token的数量就越多，成本也相应增加。这或许会引导开发者进行更高效的应用设计，精确提供所需信息源，优化成本。

不过，URL Context Grounding的出现并非宣告RAG的终结，而是对其应用场景的重新划分。对于处理企业内网的海量私有文档、需要复杂检索逻辑和极致安全性的场景，构建一套自主可控的RAG系统依然不可或缺。

URL Context揭示了一个行业趋势：基础模型正在将越来越多的「外部能力」内置化。过去由应用层开发者承担的复杂数据处理工作，正逐步被底层模型的服务吸收。

本文来自微信公众号“机器之心”（ID：almosthuman2014），作者：关注AI的机器之心，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

这场“遵义会议”，能否决定珠海万达商管的未来？

美团七夕非餐饮即时零售订单量超2700万，超500品牌销量翻倍

一则传闻引发机器人板块市场热潮

取消抽卡与体力系统，《二重螺旋》开辟二游新道路？| 玩点好的

揭秘上海外环外楼市的三个真相：且看政策影响几何

项目推荐

康小虎百岁计划・健康大使招募计划

康老板 · 氧疗堂