为何AI选择视觉作为发展突破口?
AI的发展,始终建立在人类已有科学研究的基础之上。

梳理近十年AI产业的发展脉络,我们会发现一个很有意思的现象:AI并没有从「理解世界」这类认知任务直接起步,反而最先在「感知世界」的视觉领域实现了突破与落地。
2010年代Facebook核心推进的项目就是人脸识别系统DeepFace;
特斯拉自动驾驶的核心能力,也是依靠摄像头完成对道路环境的视觉识别与理解。
这些科技巨头并非不约而同地「碰巧」选择了视觉赛道,核心原因在于:在人类的多种感知模态中,视觉信息最早完成了大规模数字化,因此成为深度学习最早实现技术突破、落地商业应用的领域。
人类拥有五种感知能力,从理论上来说,AI只要通过传感器获取声音、气味、味道、触觉等信号,就同样可以完成对这些信息的处理。

那为什么AI偏偏最早从视觉感知找到了突破口?除了商业化条件和数据基础之外,背后还有更深层的技术与科学逻辑。
AI之所以能率先实现视觉能力,本质上并不是视觉任务本身更简单,而是人类更早解开了「人类自身如何看见世界」的谜题——换句话说,AI发展视觉,直接借用了人类神经科学的研究成果。神经科学一直在探索人类感知的底层逻辑,而视觉研究的进展最快,因此自然成为了AI起步的切入口。
从这个角度来看,AI确实是站在人类科学的肩膀上成长起来的。

AI到底是怎么「看懂」图像的?
很多人认为,AI能识别图片、看懂视频,靠的是超强算力、海量数据和先进算法,是AI本身足够聪明。
但实际上,AI能实现视觉能力,核心是站在了神经科学这位「巨人」的肩膀上,这个领域并不被大众熟知,却为AI发展铺了第一块路。
我们可以从一个简单的问题开始理解:当我们看到一张小狗的照片,是怎么判断出这是一只小狗的?
其实大脑在无意识中完成了三步处理:
第一步接收信息:眼睛接收光线,将光信号转化为神经信号传入大脑
第二步提取特征:大脑先识别出画面中的边缘、线条、纹理信息
第三步综合判断:把特征组合起来,认出哪部分是耳朵、哪部分是胡须,最终形成判断:这是一只小狗
也就是说,人类的视觉不是「一眼看穿」的整体识别,而是从简单特征到复杂物体,逐层推理组合出来的结果。
早在20世纪60年代,科学家David Hubel和Torsten Wiesel就做了一个在当时看来十分大胆的实验。
他们将极细的电极插入猫的大脑视觉皮层,然后给猫展示不同的简单图案——直线、不同角度、光斑。原本只是观察猫大脑的反应,结果却有了意外发现:猫大脑里的部分神经元,只有出现竖线的时候才会激活放电;另一些神经元只对横线敏感;甚至还有神经元只对特定角度的边缘有反应。
这个实验颠覆了之前的认知:人类大脑的视觉机制其实和猫一样,我们不是直接「看一整张图」,而是把图像拆成基础特征再重新组合。这就是后来神经科学中非常重要的「感受野」概念。

更关键的是,两位科学家还发现了视觉处理的「层级结构」:第一层识别基础边缘,第二层把边缘组合成形状,第三层才识别出具体物体。
这项成果直接帮助他们拿下了1981年的诺贝尔生理学或医学奖,这也足以说明:早在半个多世纪前,人类对视觉神经机制的探索就已经达到了非常高的高度。
那AI是怎么借用这些成果的呢?有「卷积神经网络之父」之称的杨立昆(Yann LeCun)——他曾担任Facebook首席AI科学家、纽约大学教授,还获得了2018年的图灵奖——很早就产生了一个思路:既然人脑是这样识别图像的,能不能让计算机也按照这个逻辑做?
顺着这个思路,卷积神经网络(Convolutional Neural Network,简称CNN)诞生了,它的核心逻辑几乎就是对人脑视觉机制的直接复刻:
第一:每次只处理一小块区域(对应人脑的感受野,在AI中就是卷积核)
一张图片本质上就是由像素组成的数字矩阵,AI不会一次性处理整张图片,而是用一个固定大小的「小窗口」在图片上滑动,每次只分析一小块区域,这个小窗口就是卷积核,作用就是判断这块区域里的像素,能不能组成一条基础边缘。
第二:从浅到深逐层抽象理解
CNN会按照层级一步步处理:先识别边缘,再识别纹理,接着识别出眼睛、轮廓这类部件,最终判断出这是一只小狗,这个流程完全对应了人脑的视觉处理路径。
杨立昆最早开发出LeNet系统用来识别手写数字,后来还做出了可以给银行识别支票信息的系统。
在上世纪80-90年代,美国银行每天需要处理上千万张纸质支票,支票上的金额、账号这类关键信息都是手写的,靠人工逐张录入不仅成本高、速度慢,错误率也居高不下。

这种重复量大、规则模糊的任务,刚好适合用CNN处理:一方面每个人的手写字体歪歪扭扭、连笔潦草,另一方面传统编程根本无法适配这种灵活的识别需求,比如说同一个数字「8」,有人写得圆、有人写得扁,还有人会写成两个分开的圈,普通人能认出来,但传统规则式编程根本做不到。
当时杨立昆在贝尔实验室工作,实验室非常注重研究成果向实际应用转化,就直接引入了LeNet模型。
最终这个模型成功落地,除了识别支票金额,还能用来识别信封上的邮政编码,在上世纪90年代的美国银行系统中,已经有10%-20%的支票处理工作是由这类神经网络完成的。
不过受限于当时的数据量和算力水平,卷积神经网络并没有立刻引爆行业。直到2012年,Hinton和他的学生Alex Krizhevsky设计的AlexNet拿下了ImageNet竞赛的冠军,把图像识别错误率直接从26%降到了15%,效果远超传统算法,这件事直接点燃了整个AI行业,Google、Facebook全面转向深度学习研究,中国AI产业快速崛起,自动驾驶领域也开始加速发展。
AI发展史上这个关键分水岭,本质上依靠的就是深层卷积神经网络,往根上说,依靠的是神经科学家们几十年前的奠基性发现。

为什么AI最先突破视觉领域?
很多人会问:我们用文字提问ChatGPT的时候,AI需要「看」吗?
答案其实是不需要,系统会直接接收到我们输入的字符序列,字符会被转化为对应的Token数字,再送入语言模型处理,所以这种情况下AI处理的是文本数据,不需要视觉感知。
但这种情况是我们直接给AI输入了结构化信息,如果信息本身藏在图像、声音、气味这些介质里,AI就必须先通过传感器完成感知、获取数据才能处理。
机器视觉能成为AI第一个突破口,最核心的原因就是视觉信息最容易数字化:光子进入摄像头就能直接转化为像素信号,不需要额外的化学反应或者复杂物理转换。一张图像就是一个像素数字矩阵,在AI眼里本质就是一组可处理的数字。
可以说,视觉数据是最规整干净的训练数据,很容易做模式识别,AI训练也更容易收敛。相比之下,声音、气味的信息处理要复杂得多:
声音是随时间变化的序列信号,需要额外转换为频谱才能处理
气味是复杂的分子组合,不仅结构多样,往往还需要化学反应完成识别
触觉需要同时感知压力、温度、材质等多个维度的信息
除了视觉之外,其他感知模态的信息转换成本都要高很多。
第二个原因,是神经科学对视觉的研究最深入充分,我们前文提到,早在1981年,视觉领域的研究就已经产出了诺奖级成果。
人类对视觉的研究起步早、方法成熟,已经形成了完整的理论模型,不管是感受野概念,还是简单细胞/复杂细胞的特性,亦或是分层处理的机制,都已经被研究得非常透彻,这些成果直接给AI的视觉模型设计提供了完整蓝图。
而嗅觉、味觉这类感知,直到现在神经科学家都没有完全搞清楚底层机制。
第三个原因是可观的商业价值。视觉识别的商业空间十分广阔,应用场景非常多:
人脸识别可以用在支付验证、门禁系统、公安追踪等领域
自动驾驶离不开道路识别、障碍物检测、行人判断这些视觉能力
安防监控需要异常行为识别、人员追踪、风险预警,都要依托视觉技术
电商领域的拍照找同款、商品识别、内容推荐,也都需要视觉识别支撑
也正因如此,科技巨头纷纷布局视觉AI,没有人愿意错过这个大市场。

当然,现在AI在声音、气味、味道、触觉这些领域的研究也在不断推进:听觉是第二个接近成熟的感知领域,已经诞生了Siri、各类语音输入法、会议转写工具等成熟产品,但目前还存在环境噪声干扰、复杂语义理解不足等问题;
AI嗅觉还处于发展早期,已经有企业开发出「电子鼻」,通过传感器检测气体转化为信号,不少欧洲企业已经开始试验将它用在食品变质检测、爆炸物识别、癌症筛查等领域;
AI味觉比嗅觉发展更慢,对应的产品是电子舌,主要用在食品工业和水质检测领域,难点在于人类味觉本身非常主观,而且和嗅觉高度绑定,很难拆分处理;
AI触觉目前正在快速发展,现在机器人已经能感知压力、判断软硬,完成简单的抓取动作,也诞生了不少成熟的工业机器人产品,但距离人类的细腻触觉还有很大差距。

AI发展对基础科学的反向突破
聊了这么多,其实有一个很反直觉的结论:AI能看见、能听见、能识别气味,但本质上AI什么都「感受」不到。
AI比人类更纯粹,它的本质就是模式匹配,识别结果也更稳定。人类视觉会受到情绪、经验、偏见的影响,所以才会有那么多视觉错觉,但AI只会输出识别结果:它能认出这张图里是小狗,但不会觉得小狗可爱,也不会产生想要保护它的情绪。
AI本质就是模式识别:靠边缘、形状识别物体,靠频率识别声音,靠信号特征识别气味,如果没有对应的模式样本,AI就无法做出判断,这本质上也契合心理学中的模式识别理论。

AI领域唯一不变的就是变化,当初卷积神经网络打下的视觉江山,其实也一直在进化。
CNN给AI视觉指明了方向,之后视觉模型一直在不断迭代:比如ResNet就是更深层的CNN,在2014到2019年被广泛应用,解决了深层网络训练难的问题。
到2020年,Transformer开始被应用在视觉领域,这其实是对CNN思路的一种突破。
CNN走的是「模仿人类视觉」的路线,而Transformer完全脱离了这个思路,不参考人类的生理机制,直接找算法层面的更优解:它一开始就能直接处理整张图像,通过自注意力机制建立全局关联,直接打破了CNN遵循的两个生物学原则:
不再依赖局部感受野,直接建立全局信息关联
不再逐层模拟人类的视觉处理路径,让机器直接跨区域关联信息
这种脱离仿生的思路反而效果更好,不仅更擅长处理语义、场景这类复杂关系,更容易扩展到大模型,还能统一处理文本、图像、视频多模态信息。
所以AI的发展路径其实发生了一次很微妙的变化:一开始AI谦虚地模仿人类,沿着神经科学的研究成果搭建框架,但当AI技术逐渐强大之后,它开始脱离人类已有的科学认知,去寻找更高效的理解世界的方式。
从CNN到Transformer,这不仅仅是算法的迭代升级,更是AI发展路径的转变:从「模仿人类智能」,逐步走向「创造新的智能」。
本文来自微信公众号“纪源资本”,作者:纪源资本,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com






