为何AI选择视觉作为发展突破口？

05-19 06:36

AI的发展，始终建立在人类已有科学研究的基础之上。

梳理近十年AI产业的发展脉络，我们会发现一个很有意思的现象：AI并没有从「理解世界」这类认知任务直接起步，反而最先在「感知世界」的视觉领域实现了突破与落地。

2010年代Facebook核心推进的项目就是人脸识别系统DeepFace；

特斯拉自动驾驶的核心能力，也是依靠摄像头完成对道路环境的视觉识别与理解。

这些科技巨头并非不约而同地「碰巧」选择了视觉赛道，核心原因在于：在人类的多种感知模态中，视觉信息最早完成了大规模数字化，因此成为深度学习最早实现技术突破、落地商业应用的领域。

人类拥有五种感知能力，从理论上来说，AI只要通过传感器获取声音、气味、味道、触觉等信号，就同样可以完成对这些信息的处理。

那为什么AI偏偏最早从视觉感知找到了突破口？除了商业化条件和数据基础之外，背后还有更深层的技术与科学逻辑。

AI之所以能率先实现视觉能力，本质上并不是视觉任务本身更简单，而是人类更早解开了「人类自身如何看见世界」的谜题——换句话说，AI发展视觉，直接借用了人类神经科学的研究成果。神经科学一直在探索人类感知的底层逻辑，而视觉研究的进展最快，因此自然成为了AI起步的切入口。

从这个角度来看，AI确实是站在人类科学的肩膀上成长起来的。

AI到底是怎么「看懂」图像的？

很多人认为，AI能识别图片、看懂视频，靠的是超强算力、海量数据和先进算法，是AI本身足够聪明。

但实际上，AI能实现视觉能力，核心是站在了神经科学这位「巨人」的肩膀上，这个领域并不被大众熟知，却为AI发展铺了第一块路。

我们可以从一个简单的问题开始理解：当我们看到一张小狗的照片，是怎么判断出这是一只小狗的？

其实大脑在无意识中完成了三步处理：

第一步接收信息：眼睛接收光线，将光信号转化为神经信号传入大脑

第二步提取特征：大脑先识别出画面中的边缘、线条、纹理信息

第三步综合判断：把特征组合起来，认出哪部分是耳朵、哪部分是胡须，最终形成判断：这是一只小狗

也就是说，人类的视觉不是「一眼看穿」的整体识别，而是从简单特征到复杂物体，逐层推理组合出来的结果。

早在20世纪60年代，科学家David Hubel和Torsten Wiesel就做了一个在当时看来十分大胆的实验。

他们将极细的电极插入猫的大脑视觉皮层，然后给猫展示不同的简单图案——直线、不同角度、光斑。原本只是观察猫大脑的反应，结果却有了意外发现：猫大脑里的部分神经元，只有出现竖线的时候才会激活放电；另一些神经元只对横线敏感；甚至还有神经元只对特定角度的边缘有反应。

这个实验颠覆了之前的认知：人类大脑的视觉机制其实和猫一样，我们不是直接「看一整张图」，而是把图像拆成基础特征再重新组合。这就是后来神经科学中非常重要的「感受野」概念。

更关键的是，两位科学家还发现了视觉处理的「层级结构」：第一层识别基础边缘，第二层把边缘组合成形状，第三层才识别出具体物体。

这项成果直接帮助他们拿下了1981年的诺贝尔生理学或医学奖，这也足以说明：早在半个多世纪前，人类对视觉神经机制的探索就已经达到了非常高的高度。

那AI是怎么借用这些成果的呢？有「卷积神经网络之父」之称的杨立昆（Yann LeCun）——他曾担任Facebook首席AI科学家、纽约大学教授，还获得了2018年的图灵奖——很早就产生了一个思路：既然人脑是这样识别图像的，能不能让计算机也按照这个逻辑做？

顺着这个思路，卷积神经网络（Convolutional Neural Network，简称CNN）诞生了，它的核心逻辑几乎就是对人脑视觉机制的直接复刻：

第一：每次只处理一小块区域（对应人脑的感受野，在AI中就是卷积核）

一张图片本质上就是由像素组成的数字矩阵，AI不会一次性处理整张图片，而是用一个固定大小的「小窗口」在图片上滑动，每次只分析一小块区域，这个小窗口就是卷积核，作用就是判断这块区域里的像素，能不能组成一条基础边缘。

第二：从浅到深逐层抽象理解

CNN会按照层级一步步处理：先识别边缘，再识别纹理，接着识别出眼睛、轮廓这类部件，最终判断出这是一只小狗，这个流程完全对应了人脑的视觉处理路径。

杨立昆最早开发出LeNet系统用来识别手写数字，后来还做出了可以给银行识别支票信息的系统。

在上世纪80-90年代，美国银行每天需要处理上千万张纸质支票，支票上的金额、账号这类关键信息都是手写的，靠人工逐张录入不仅成本高、速度慢，错误率也居高不下。

这种重复量大、规则模糊的任务，刚好适合用CNN处理：一方面每个人的手写字体歪歪扭扭、连笔潦草，另一方面传统编程根本无法适配这种灵活的识别需求，比如说同一个数字「8」，有人写得圆、有人写得扁，还有人会写成两个分开的圈，普通人能认出来，但传统规则式编程根本做不到。

当时杨立昆在贝尔实验室工作，实验室非常注重研究成果向实际应用转化，就直接引入了LeNet模型。

最终这个模型成功落地，除了识别支票金额，还能用来识别信封上的邮政编码，在上世纪90年代的美国银行系统中，已经有10%-20%的支票处理工作是由这类神经网络完成的。

不过受限于当时的数据量和算力水平，卷积神经网络并没有立刻引爆行业。直到2012年，Hinton和他的学生Alex Krizhevsky设计的AlexNet拿下了ImageNet竞赛的冠军，把图像识别错误率直接从26%降到了15%，效果远超传统算法，这件事直接点燃了整个AI行业，Google、Facebook全面转向深度学习研究，中国AI产业快速崛起，自动驾驶领域也开始加速发展。

AI发展史上这个关键分水岭，本质上依靠的就是深层卷积神经网络，往根上说，依靠的是神经科学家们几十年前的奠基性发现。

为什么AI最先突破视觉领域？

很多人会问：我们用文字提问ChatGPT的时候，AI需要「看」吗？

答案其实是不需要，系统会直接接收到我们输入的字符序列，字符会被转化为对应的Token数字，再送入语言模型处理，所以这种情况下AI处理的是文本数据，不需要视觉感知。

但这种情况是我们直接给AI输入了结构化信息，如果信息本身藏在图像、声音、气味这些介质里，AI就必须先通过传感器完成感知、获取数据才能处理。

机器视觉能成为AI第一个突破口，最核心的原因就是视觉信息最容易数字化：光子进入摄像头就能直接转化为像素信号，不需要额外的化学反应或者复杂物理转换。一张图像就是一个像素数字矩阵，在AI眼里本质就是一组可处理的数字。

可以说，视觉数据是最规整干净的训练数据，很容易做模式识别，AI训练也更容易收敛。相比之下，声音、气味的信息处理要复杂得多：

声音是随时间变化的序列信号，需要额外转换为频谱才能处理

气味是复杂的分子组合，不仅结构多样，往往还需要化学反应完成识别

触觉需要同时感知压力、温度、材质等多个维度的信息

除了视觉之外，其他感知模态的信息转换成本都要高很多。

第二个原因，是神经科学对视觉的研究最深入充分，我们前文提到，早在1981年，视觉领域的研究就已经产出了诺奖级成果。

人类对视觉的研究起步早、方法成熟，已经形成了完整的理论模型，不管是感受野概念，还是简单细胞/复杂细胞的特性，亦或是分层处理的机制，都已经被研究得非常透彻，这些成果直接给AI的视觉模型设计提供了完整蓝图。

而嗅觉、味觉这类感知，直到现在神经科学家都没有完全搞清楚底层机制。

第三个原因是可观的商业价值。视觉识别的商业空间十分广阔，应用场景非常多：

人脸识别可以用在支付验证、门禁系统、公安追踪等领域

自动驾驶离不开道路识别、障碍物检测、行人判断这些视觉能力

安防监控需要异常行为识别、人员追踪、风险预警，都要依托视觉技术

电商领域的拍照找同款、商品识别、内容推荐，也都需要视觉识别支撑

也正因如此，科技巨头纷纷布局视觉AI，没有人愿意错过这个大市场。

当然，现在AI在声音、气味、味道、触觉这些领域的研究也在不断推进：听觉是第二个接近成熟的感知领域，已经诞生了Siri、各类语音输入法、会议转写工具等成熟产品，但目前还存在环境噪声干扰、复杂语义理解不足等问题；

AI嗅觉还处于发展早期，已经有企业开发出「电子鼻」，通过传感器检测气体转化为信号，不少欧洲企业已经开始试验将它用在食品变质检测、爆炸物识别、癌症筛查等领域；

AI味觉比嗅觉发展更慢，对应的产品是电子舌，主要用在食品工业和水质检测领域，难点在于人类味觉本身非常主观，而且和嗅觉高度绑定，很难拆分处理；

AI触觉目前正在快速发展，现在机器人已经能感知压力、判断软硬，完成简单的抓取动作，也诞生了不少成熟的工业机器人产品，但距离人类的细腻触觉还有很大差距。

AI发展对基础科学的反向突破

聊了这么多，其实有一个很反直觉的结论：AI能看见、能听见、能识别气味，但本质上AI什么都「感受」不到。

AI比人类更纯粹，它的本质就是模式匹配，识别结果也更稳定。人类视觉会受到情绪、经验、偏见的影响，所以才会有那么多视觉错觉，但AI只会输出识别结果：它能认出这张图里是小狗，但不会觉得小狗可爱，也不会产生想要保护它的情绪。

AI本质就是模式识别：靠边缘、形状识别物体，靠频率识别声音，靠信号特征识别气味，如果没有对应的模式样本，AI就无法做出判断，这本质上也契合心理学中的模式识别理论。

AI领域唯一不变的就是变化，当初卷积神经网络打下的视觉江山，其实也一直在进化。

CNN给AI视觉指明了方向，之后视觉模型一直在不断迭代：比如ResNet就是更深层的CNN，在2014到2019年被广泛应用，解决了深层网络训练难的问题。

到2020年，Transformer开始被应用在视觉领域，这其实是对CNN思路的一种突破。

CNN走的是「模仿人类视觉」的路线，而Transformer完全脱离了这个思路，不参考人类的生理机制，直接找算法层面的更优解：它一开始就能直接处理整张图像，通过自注意力机制建立全局关联，直接打破了CNN遵循的两个生物学原则：

不再依赖局部感受野，直接建立全局信息关联

不再逐层模拟人类的视觉处理路径，让机器直接跨区域关联信息

这种脱离仿生的思路反而效果更好，不仅更擅长处理语义、场景这类复杂关系，更容易扩展到大模型，还能统一处理文本、图像、视频多模态信息。

所以AI的发展路径其实发生了一次很微妙的变化：一开始AI谦虚地模仿人类，沿着神经科学的研究成果搭建框架，但当AI技术逐渐强大之后，它开始脱离人类已有的科学认知，去寻找更高效的理解世界的方式。

从CNN到Transformer，这不仅仅是算法的迭代升级，更是AI发展路径的转变：从「模仿人类智能」，逐步走向「创造新的智能」。

本文来自微信公众号“纪源资本”，作者：纪源资本，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

凿通出海水运通道，曾坐拥沿海优势却难发挥的广西，即将迎来发展新局

上市半月涨超1500%，联讯仪器突破1300元问鼎A股新股王

最新房价数据公布：北京二手房价格已连涨三月

瑞幸全国推含酒精新品，严苛核验要求逼苦三万一线员工？

走出投流价格战：京东指数交易升级，百万订单背后的商家轻经营新路径