Gemini 3新增智能体视觉能力 以代码执行实现像素级图像操控

2天前
Gemini 3 Flash推出Agentic Vision(智能体视觉)新功能,借助代码执行机制主动分析图像,革新大语言模型的视觉理解方式。

【导读】Google DeepMind为Gemini 3 Flash赋予智能体视觉能力,通过代码执行让AI从被动看图像转向主动深度调查。


Google DeepMind刚为Gemini 3 Flash上线重量级能力——Agentic Vision(智能体视觉),这一技术彻底改变了大语言模型理解世界的模式:从过去的‘猜’变为如今的‘深度调查’。



该能力由Google DeepMind团队打造,核心产品经理Rohan Doshi介绍,传统AI模型处理图片时多为静态观察,遇到微芯片序列号、模糊路牌等细节时只能依赖猜测。而Agentic Vision引入‘思考-行动-观察’闭环,让模型能主动操纵图像获取清晰信息。



这项能力使Gemini 3 Flash在各类视觉基准测试中性能提升5%至10%。



Agentic Vision:智能体视觉新方向


DeepMind的方法核心是将代码执行作为视觉推理工具,把被动视觉理解转化为主动智能体过程。当前SOTA模型通常一次性处理图像,而Agentic Vision构建了循环机制:


1.思考(Think):模型分析用户查询与初始图像,制定多步计划。


2.行动(Act):生成并执行Python代码,主动进行图像裁剪、旋转、标注或分析计算、计数边界框等操作。


3.观察(Observe):变换后的图像被添加到上下文窗口,让模型在生成最终响应前获取更充分的信息。



Agentic Vision实际应用

开启API代码执行功能后,开发者可解锁多种新行为,Google AI Studio的演示应用已展示相关效果:


1. 缩放检查


Gemini 3 Flash能在检测到细粒度细节时自动缩放。建筑计划验证平台PlanCheckSolver.com启用该功能后,通过迭代检查高分辨率输入,准确率提升5%。后台日志显示,模型生成Python代码裁剪分析屋顶边缘等特定区域,将结果追加到上下文以确认是否符合建筑规范。



2. 图像标注


模型可通过标注与图像交互。例如数Gemini应用中手上的数字时,它用Python在每个手指上绘制边界框和数字标签,以‘视觉草稿纸’确保答案基于像素级理解。



3. 视觉数学与绘图


模型能解析高密度表格并执行Python代码可视化结果。标准LLM在多步视觉算术中易出错,而Gemini 3 Flash通过确定性Python环境避免问题。演示中它识别原始数据,编写代码将SOTA结果归一化为1.0,生成专业Matplotlib条形图。



使用指南

Agentic Vision现已通过Google AI Studio和Vertex AI的Gemini API提供,也开始在Gemini应用中推出(从模型下拉菜单选Thinking访问)。



以下是调用该能力的Python代码示例:


  1. fromgoogleimportgenai
  2. fromgoogle.genaiimporttypes
  3. client = genai.Client()
  4. image = types.Part.from_uri(
  5. file_uri="https://goo.gle/instrument-img",
  6. mime_type="image/jpeg",
  7. )
  8. response = client.models.generate_content(
  9. model="gemini-3-flash-preview",
  10. contents=[image,"Zoom into the expression pedals and tell me how many pedals are there?"],
  11. config=types.GenerateContentConfig(
  12. tools=[types.Tool(code_execution=types.ToolCodeExecution)]
  13. ),
  14. )
  15. print(response.text)


未来发展


Google表示Agentic Vision尚处初期阶段。目前Gemini 3 Flash能自动判断何时放大细节,旋转图像、视觉数学等功能需显式提示触发,未来将实现完全自动化。此外,团队还在探索为模型添加网络搜索、反向图像搜索等工具,并计划扩展到更多模型尺寸。


彩蛋:与DeepSeek的关联?


值得注意的是,DeepSeek刚开源DeepSeek-OCR2,谷歌就发布了Agentic Vision,时间点巧合引发猜测。推测谷歌此次更新或受DeepSeek推动,理由如下:


1.时间契合:1月27日DeepSeek发布DeepSeek-OCR2,同日谷歌推出Agentic Vision,似在视觉技术竞争中回应。


2.技术路线竞争:DeepSeek-OCR2通过DeepEncoder V2让AI按逻辑阅读,谷歌则用代码执行实现主动操作,分别代表感知优化与交互能力提升两条路线。


3.定义机器视觉:DeepSeek-OCR2证明小模型优化视觉逻辑可超越大模型,谷歌则以代码执行强化理解深度,双方争夺机器视觉的定义权。


无论是否为竞争驱动,这场技术比拼都将惠及开发者。


参考资料:


https://blog.google/innovation-and-ai/technology/developers-tools/agentic-vision-gemini-3-flash/?linkId=43682412


本文来自微信公众号“新智元”,编辑:定慧,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com