Gemini 3新增智能体视觉能力以代码执行实现像素级图像操控

2天前

Gemini 3 Flash推出Agentic Vision（智能体视觉）新功能，借助代码执行机制主动分析图像，革新大语言模型的视觉理解方式。

【导读】Google DeepMind为Gemini 3 Flash赋予智能体视觉能力，通过代码执行让AI从被动看图像转向主动深度调查。

Google DeepMind刚为Gemini 3 Flash上线重量级能力——Agentic Vision（智能体视觉），这一技术彻底改变了大语言模型理解世界的模式：从过去的‘猜’变为如今的‘深度调查’。

该能力由Google DeepMind团队打造，核心产品经理Rohan Doshi介绍，传统AI模型处理图片时多为静态观察，遇到微芯片序列号、模糊路牌等细节时只能依赖猜测。而Agentic Vision引入‘思考-行动-观察’闭环，让模型能主动操纵图像获取清晰信息。

这项能力使Gemini 3 Flash在各类视觉基准测试中性能提升5%至10%。

Agentic Vision：智能体视觉新方向

DeepMind的方法核心是将代码执行作为视觉推理工具，把被动视觉理解转化为主动智能体过程。当前SOTA模型通常一次性处理图像，而Agentic Vision构建了循环机制：

1.思考（Think）：模型分析用户查询与初始图像，制定多步计划。

2.行动（Act）：生成并执行Python代码，主动进行图像裁剪、旋转、标注或分析计算、计数边界框等操作。

3.观察（Observe）：变换后的图像被添加到上下文窗口，让模型在生成最终响应前获取更充分的信息。

Agentic Vision实际应用

开启API代码执行功能后，开发者可解锁多种新行为，Google AI Studio的演示应用已展示相关效果：

1. 缩放检查

Gemini 3 Flash能在检测到细粒度细节时自动缩放。建筑计划验证平台PlanCheckSolver.com启用该功能后，通过迭代检查高分辨率输入，准确率提升5%。后台日志显示，模型生成Python代码裁剪分析屋顶边缘等特定区域，将结果追加到上下文以确认是否符合建筑规范。

2. 图像标注

模型可通过标注与图像交互。例如数Gemini应用中手上的数字时，它用Python在每个手指上绘制边界框和数字标签，以‘视觉草稿纸’确保答案基于像素级理解。

3. 视觉数学与绘图

模型能解析高密度表格并执行Python代码可视化结果。标准LLM在多步视觉算术中易出错，而Gemini 3 Flash通过确定性Python环境避免问题。演示中它识别原始数据，编写代码将SOTA结果归一化为1.0，生成专业Matplotlib条形图。

使用指南

Agentic Vision现已通过Google AI Studio和Vertex AI的Gemini API提供，也开始在Gemini应用中推出（从模型下拉菜单选Thinking访问）。

以下是调用该能力的Python代码示例：

fromgoogleimportgenai
fromgoogle.genaiimporttypes
client = genai.Client()
image = types.Part.from_uri(
file_uri="https://goo.gle/instrument-img",
mime_type="image/jpeg",
)
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents=[image,"Zoom into the expression pedals and tell me how many pedals are there?"],
config=types.GenerateContentConfig(
tools=[types.Tool(code_execution=types.ToolCodeExecution)]
),
)
print(response.text)