哈萨比斯盛赞!谷歌革新诞生半世纪的鼠标,AI直接懂意图,彻底告别提示词输入

9分钟前

陪伴我们走过半个世纪,几乎从未迭代过的鼠标指针,即将获得AI赋予的“大脑”了。


自从上世纪70年代鼠标诞生以来,指针的形态和功能始终没有发生本质变化:它出现在每一个网页、每一份文档、每一套工作流里,却从来没办法理解用户真正想做的事。


近日,谷歌DeepMind发布研究博客,推出了由Gemini大模型驱动的实验原型「AI赋能指针」,并且已经在Google AI Studio开放了两个体验Demo。



项目研究员Adrien Baranes和Rob Marchant在官方博客中表示:我们正在研发更流畅、更自然的人机AI协作方式。



项目链接:https://deepmind.google/blog/ai-pointer/?utm_source=chatgpt.com


DeepMind首席执行官Demis Hassabis亲自为项目站台,称这个交互体验“相当神奇”。



这一次,鼠标箭头的外观没变,但核心逻辑彻底改变了:它不再只是标记你指向的位置,还能读懂你真实的意图。


目前这个原型已经可以在Google AI Studio体验,一共开放了两个Demo:AI图片创作(AI-Pointer: Create)和地图位置搜索(AI-Pointer: Find)。



「AI-Pointer: Create」体验入口:https://aistudio.google.com/apps/bundled/ai-pointer-create


AI该主动贴近用户,而非让用户迁就AI


你每天到底浪费了多少时间给AI“说明上下文”?


你肯定每天都在重复这样的操作流程:


先打开ChatGPT或者Gemini这类AI工具的对话窗口,再切回正在浏览的网页或编辑的文档,选中需要处理的内容点击复制,再切回AI窗口粘贴,还要额外打一两句话说明需求,等待AI生成结果,最后再切回原窗口继续操作……


每一次反复切窗口、复制粘贴、解释需求,都会打断原本的工作思路,造成认知中断。


我们花在AI上的大部分时间,其实都没有用来解决真正的问题,都耗在了“告诉AI你到底在看什么、想要什么”这件事上。


DeepMind精准点出了当前AI交互的核心痛点:


现在的AI工具大多独立在单独窗口运行,需要用户把自己的内容挪给AI处理;而我们想要的恰恰相反,应该让AI主动融入用户当前的工作场景。


这句话直接戳破了近两年AI交互模式最核心的结构性问题。


彻底告别提示词


指哪里,AI就懂哪里


AI赋能指针要解决的,正是这种不必要的交互摩擦。项目负责人Adrien认为,这个项目的核心目标只有一个:打造一套能真正读懂用户流动意图的系统。


这套系统背后有四大设计原则,共同回答一个问题:如何让AI读懂用户的意图,不需要用户额外费力解释?


第一个原则是「Maintain the flow」,也就是保持工作流畅性。


按照DeepMind的设计目标,AI能力不应该把用户带离当前正在使用的应用,而是直接在当前工作上下文里完成操作:指着PDF文档说“帮我生成一段可以直接粘贴到邮件里的摘要”,AI生成完成后你就可以直接继续原来的工作,不需要来回切换。


第二个原则是「Show and tell」,指给AI看就够了。现在使用AI,你需要写大段详细的提示词,描述你要处理的内容、特征、上下文背景,而AI赋能指针直接把这一步省掉了。光标停在哪里,Gemini就会自动捕获那里的视觉信息和语义上下文,你不需要描述你看到的内容,因为AI已经和你看到一模一样的内容了。


第三个原则,也是DeepMind重点强调的「Embrace the power of This and That」,拥抱“这个”“那个”这类指代词的力量。


想想人和人日常是怎么协作的:你不会跟同事说“请把第三行第二列的数值乘以二,更新到对应的汇总表格里”,你只会说“把这个数字改成两倍,更新到那里”,然后用手指一下就行了。


AI赋能指针就是要让人和AI的协作,变得像人和人协作一样自然。从技术实现来看,这套系统不会只解析语音里的文字内容,而是会把“这个”“那个”“这里”“那里”这类指代词,和光标或手势指向的位置对应的视觉、语义信息关联起来。


所以当用户说“把这个便签改成橙色”的时候,“这个”不再是模糊的代词,系统会结合你当前指向的位置、对象和上下文准确理解,Gemini接收到的也不只是字面上的一句话,而是语音、指向位置和屏幕内容共同确定的清晰意图。


提示词的本质从来都不是文字,而是传递意图;现在,意图终于可以用最简单直接的方式传递了。


更灵活的是,“指向”并不只局限于鼠标:官方演示里,Adrien还用到了头部追踪,头转向哪里,AI的注意力就跟到哪里,语音、文字、图像理解全程同步响应。


第四个原则技术含量最高:「Turn pixels into actionable entities」,把屏幕像素转化成可操作的实体对象。


过去50年,光标只能知道你指的是哪个位置,却看不懂你指的到底是什么东西;AI赋能指针就是要改变这个现状。


你悬停的图片里有一栋建筑,AI会识别出“这是一个地理位置”,直接就能触发导航操作;


你拍了一张手写便条,AI识别出上面的文字,就能直接把便条内容转换成可编辑的待办清单;


你在旅游视频里暂停了一帧,画面里那家看起来不错的餐厅,直接就能弹出订位链接。


官方演示里还有一个让人印象深刻的细节:Adrien先指着一份餐厅菜单,再指着一张风格参考图,说“用这张图的风格,帮我重新画这份菜单”。


Gemini同时读懂了菜单内容和参考图的视觉风格,直接生成了一张融合两者的新图片,不需要分两次操作,只用一句话、两个指向动作就完成了任务。


这一次,屏幕像素第一次被赋予了明确的语义。


已经开始落地产品


DeepMind并没有把这个项目停留在概念阶段。


谷歌表示,这套交互原则已经开始逐步落地到现有产品:在Chrome浏览器中,用户已经可以用指针指向或选中网页内容,直接向Gemini提问。


谷歌笔记本的Magic Pointer已经被谷歌列为即将推出的系统级功能,首批搭载该功能的谷歌笔记本计划在今年秋季正式上市。


当然,从实验室演示到日常可用,还有一段路要走。


识别准确率、跨应用兼容性、响应速度,都需要在真实复杂的桌面环境里不断打磨优化。


还有一个问题值得关注:AI赋能指针需要持续理解用户屏幕上的内容,这些数据如何采集、如何存储、会流向哪里,DeepMind目前还没有给出详细说明。


但这些都不是不可逾越的障碍,只是新的交互范式从实验室走向大众必须经历的过程。每一项改变交互方式的新技术,都经历过这个阶段:初代iPhone发布触屏的时候,也没有人敢保证它能取代物理键盘。


键盘生于1973,鼠标生于1984,触屏生于2007


下一代交互诞生于2026


把AI指针放回半个世纪的人机交互史中看,它的意义就非常清晰了。


1973年,施乐Alto把图形界面、位图显示和鼠标这些现代桌面交互的雏形带入实验系统。


1984年,苹果Macintosh把鼠标和图形界面带给普通大众,人类开始用“指”的方式操作图标完成任务。


2007年,苹果iPhone让用户手指直接成为主要输入方式,触屏成为移动计算的核心交互方式。


每一次交互范式的跃迁,背后都是同一个逻辑:机器学会的越多,人需要学习和操作的就越少。


2022年生成式AI爆火之后,提示词框成为主流交互:人把自己的意图翻译成自然语言输入对话框,再等机器返回结果。这种方式的表达带宽确实更宽了,但“翻译”的环节并没有消失,你还是需要打字描述你的需求。


2026年推出的这只AI指针,想要砍掉的就是“解释上下文”这一步,而不是彻底消灭表达本身。


手势加上语音,搭配语义理解同步工作,意图传递从“精确描述”变成了“自然指向”:人依然需要表达需求,只是再也不用费力解释“我现在到底在看什么”了。



之前四代交互范式都是“人主动向机器表达意图”,这一次,终于变成了“机器主动理解人”,提示词工程在这种新范式里几乎没有存在的必要了。


Adrien在视频结尾描述了他想象中未来交互的样子:


未来会出现一种新型操作系统,AI会主动呈现我可能感兴趣的内容,我只用指向就能回应它,我们共享注意力、共享工作画布,就像和另一个人一起工作一样。


AI交互的终点,从来都不是一个更聪明的搜索框,而是一个能真正和你默契协作的伙伴。


最好用的工具,往往就是你会忘记它存在的工具。


鼠标已经陪伴人类走过了50年,接下来的半个世纪,它或许终于能真正读懂你的想法了。


参考资料:


https://deepmind.google/blog/ai-pointer/?utm_source=chatgpt.com


https://aistudio.google.com/apps/bundled/ai-pointer-create?showPreview=true&fullscreenApplet=true&showAssistant=true


本文来自微信公众号“新智元”,作者:新智元,编辑:元宇,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com