斯坦福大学年度报告:公司AI使用水平创纪录
有时候你可能会被这样的蒙蔽了双眼:新闻里的AI怎么可能写科研论文,自动驾驶,但是我们手里的AI工具总是无效?也许这份斯坦福大学最新的《2025年人工智能指数报告》可以回答你的困惑。
这份400多份年度报告涵盖了AI硬件格局的深入分析、推理成本的新估计、AI领域学术发布和专利申请趋势的新分析。同时,引入了相关企业采用尽职尽责的AI实践新数据。我们编译了报告的一些重要成果,希望能帮助大家更好地了解AI技术的发展,充分利用它们获得先发优势。

人工智能日益融入日常生活

人工智能正在从医疗健康到交通运输的许多领域迅速从实验室走向日常生活。2023年,美国食品药品监督管理局(FDA)223种人工智能医疗器械已经批准,但2015年只有6种。在路上,无人驾驶汽车不再处于实验阶段,一名无人驾驶汽车运营商每周提供15万多项自动驾驶服务。
科学与医学领域在这波人工智能热潮中涌现出令人惊叹的新面貌。在材料科学、天气预报、量子计算等方面,多个新发布的基础模型将有助于研究。许多公司试图将AI的预测和生成能力转化为有利可图的药物发现。但总的来说,人类并没有把AI的潜力转化为现实的影响,因为人们似乎还没有完全理解如何使用AI技术。2024年的一项研究表明,在使用GPT-4辅助诊断后,医生并没有提高诊断的准确性或速度。另一方面,独自工作的GPT-4比独自工作的医生强,也比医生强。 AI搭配。
企业全面进入人工智能领域,应用水平创纪录

在商业应用领域,AI正在加速:2024年,78%的组织表示,AI的使用量高于去年的55%。与此同时,越来越多的研究证实,人工智能可以提高生产力,而且在许多情况下,它有助于缩小劳动力队伍中的技能差距。
但是客观地说,企业还没有看到能够带来显著成本节约或新增利润的本质变化。。这张来自麦肯锡调查的图表显示,大多数报告降低成本的企业只节省不到10%的资金;然而,大多数实现收入增长的企业增长率低于5%。

对AI生态系统的不平衡发展负责
与人工智能相关的事件数量急剧增加,但在主要工业模型开发者中,标准化的人工智能评估仍然很少见。然而,像HELM一样 Safety、AIR-新的基准测试,如Bench和FACTS,为评估真实性和安全性提供了一个有前途的工具。就公司而言,虽然意识到了负责人工智能的风险,但在采取有价值的行动方面仍然存在差距。
乐观的人工智能情绪正在上升。

关于“AI何时取代你的工作”的公开讨论早已沸腾。但是有趣的是,一项最新的全球AI态度调查显示,大多数人没有意识到威胁。受访者来自32个国家,60%的受访者认为人工智能将改变他们的工作方式,但只有36%的受访者认为他们将被取代。
AI在更高要求的基准测试中的表现不断提高,但是复杂的推理仍然是一个挑战。

2023年,研究人员引进了新的基准测试。——MMMU(大型多学科多模态理解与推理基准测试,用于评估专家级任务中多模态AI模型的基准测试。11.5K多模态问题包括30个学科和183个子领域)、GPQA(纽约大学等机构的研究团队推出的标准测试数据集,包括生物、物理、化学专家编写的448道选择题,质量高,难度大。这类问题需要对相应学科有深入的理解和多步推理能力才能解决)和SWE-bench(为了测试先进AI系统的极限,普林斯顿大学和芝加哥大学的研究人员提出了评价标准,旨在评价大型语言模型在处理真实世界GitHub软件问题方面的优势)。仅仅一年后,AI的性能就有了很大的提高:MMU、GPQA和SWE-在bench测试中,分数各自提高了18.8。、48.9和67.3%。此外,AI系统在生成高质量视频方面也取得了重大突破,在某些情况下,在时间有限的编程任务下,语言模型智能体甚至比人类表现得更好。
另外,报告还强调了一个无可争议的事实:许多用于评估人工智能系统能力的基准测试已经趋于“饱和”-AI系统得分过高,以至于测试不再有意义。。这种情况已经出现在很多领域,比如常识、图像推理、数学、编程等等。有鉴于此,科学家们正在努力开发新的基准测试来挑战AI系统。其中一套名为“人类终极测试”(Humanity’s Last Exam)大杀招,汇集了来自世界500所机构的学科专家提供的极限难题,成功地难以解决目前AI系统的顶级问题。
此外,AI模型在处理国际数学奥林匹克竞赛的主题和其他任务方面表现良好,但在PlanBench等复杂的推理基准测试中仍然面临困难。即使有正确的解决方案可以证明,他们也往往无法可靠地处理逻辑任务,这限制了他们在高风险场景中的有效性,这些场景对精度要求极高。

AI变得更加高效,更加经济,更容易使用。

2022年11月至2024年10月,在性能日益强大的小型模型的推动下,系统推理成本达到GPT-3.5水平,降幅超过280倍。就硬件而言,成本每年降低30%,而能源效率每年提高40%。在一些基准测试中,开源权重模型也在缩小与闭源模型的差距,一年内性能差距从8%缩小到只有1.7%。总的来说,这些趋势正在迅速降低先进AI的应用门槛。
AI和计算机科学教育正在普及,但是在获得教育资源和准备学习方面仍然存在差距。

现在,三分之二的我国已经提供或计划从幼儿园提供到12年级。(K-计算机科学12)(CS)这一比例是2019年教育的两倍,其中非洲和拉丁美洲进步最大。
AI行业发展迅速,但前沿竞争日益激烈

2024年,近90%的知名AI模型来自行业,超过2023年的60%,而学术界仍是高引用率研究的主要来源。模型规模持续快速增长——训练所需的计算量每五个月翻一番,数据规模每八个月翻一番,能源使用量逐年增加。但是,性能差距正在缩小:排名第一和排名第十的模型之间的得分差距在一年内从11.9%下降到5.4%,排名前两位的模型现在只有0.7%的差距。AI前沿领域的竞争日益激烈,参与者越来越多。
AI因其对科学的影响而获得最高奖项。

AI在一些重大科学奖项中的作用越来越重要:两个诺贝尔奖表彰了对深度学习(物理领域)和蛋白质折叠(化学领域)应用的研究成果,图灵奖授予对强化学习做出创造性贡献的人。
本文来自微信微信官方账号“红杉汇”(ID:Sequoiacap),作者:洪杉,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




