生成式AI:三个缺点,两个难题,一个谬论

04-29 19:22


炼制大模型,大炼模型


近几年是全球风险投资的低潮,生成AI(GenAI)但是逆势而来,去年的融资笔数和融资额分别增长了66%和400%(来源:CB Insight,如图所示),融资额在所有细分领域中排名第一(来源:Dealroom.co)。去年,美国前五大风险投资,OpenAI、Anthropic(2笔)和Inflection 三家AIGenAI公司占4家,其融资额分别为100亿美元、40亿美元、20亿美元和13亿美元,主要投资者为微软、亚马逊、谷歌和英伟达(来源:Crunchbase)。


全球GenAI在2019-2023年的融资额和融资额


当前的GenAI热潮起源于美国工业界,事实上,美国政府也非常重视,提出了“确保持续领先地位”的发展战略。在奥巴马阶段,美国白宫发布了《国家人工智能R&D战略计划(2016年)》,特朗普阶段(2019年)和拜登阶段(2023年)更新了这一点,从而形成了长期投资、人工智能合作、伦理、安全、数据、评价标准、人才、公私合作和国际合作的九大战略。美国白宫科技政策办公室为了推动战略的实施和落地,(OSTP)人工智能特别委员会(2018)和国家人工智能倡议办公室(2021)相继成立。


我们国家还提炼大模型、大炼模型。今年第一季度,在全球前三大GenAI风险投资中,中国在暗面上占据了2-月的10亿美元A轮融资和MiniMax 融资6亿美元。通信运营商、手机制造商、家电制造商、汽车公司、软件公司、AI企业、互联网公司、电子商务等各类企业都参与其中,通过国家生成的人工智能服务备案了117个大型模型。大型模型成为大型厂家的标准。但并非兵戎相遇的“百模对决”,反而颇有井水不犯河水之意。


三块短板


我们国家的人工智能位居世界前列。但是还有一些缺点需要补充,集中在计算率、数据和人才三个方面。


一是算率。GenAI通过计算率沉积实现智能出现,其成功依赖于暴力美学。按Jaime计算 Sevilla等研究人员(2022),在前深度学习时代(1952-2009),计算能力需求每21.3个月翻一番,符合摩尔定律;在深度学习时代(2010-2022),计算能力需求加速到每5.6个月翻一番。如图所示。根据THE DECODER披露(2023),GPT-4每秒浮点计算频次(FLOPs)达到2.15×10^25,一次训练费用6300万美元。


里程碑机器学习系统的计算能力练习要求,来源:Sevilla J, Heim L, Ho A, et al. Compute trends across three eras of machine learning. 2022.


英伟达在机器学习图形处理器领域占有95%的市场份额(来源:New Street Research,2023年)。英伟达的A100和H100芯片是训练大模型的“金刚钻”,具有不可替代性。由于美国对华GPU的限制,我国面临着卡脖子的现实。


二是数据。我们国家数据规模巨大。2022年我国数据产量8.11年,根据国家互联网信息办公室《数字中国发展报告(2022年)》,ZB,世界比例为10.5%,位居世界第二。它被认为是发展相关产业的优势。但是,规模优势不足以填补缺乏质量。不管马车数量有多大,都不能得到一条铁路(熊彼特,1934)。至少同样重要的是数据质量。这是Hugging 英语以37.7%的比例排名第一,而中文仅占3.2%,与波兰语并列第九(来源:OECD,2023)。如图所示。我们国家的数据集质量还有待进一步提高。诚然,这不是一天的工作,需要岁月的积累。


三是人才。自1966年以来,全世界共有77人获得图灵奖。只有一个华人——姚期智(2000)。我们国家计算机科学的历史积累仍然不足,幸运的是,近年来取得了长足的进步,成为美国最大的竞争者。根据MacroPolo数据(2024),在世界顶级(前2%)AI研究人员的原籍国中,中国以26%的比例接近美国(28%),排名第二。我们国家有47%的国家是顶级(前20%)AI研究人员,远远超过美国(18%)。然而,仍然存在隐患。在顶级(前2%)AI研究人员的就业国家中,中国仍然排名第二,但只有12%远远落后于美国(57%)。如下表所示。GenAI非常依赖每个人的创新能力。如何吸引世界顶尖人才赴华创业、就业,是需要努力的方向。


来源:根据MacroPolo(2024)的数据,全球AI人才分布比例


两道难题


每一次创新都不容易,需要克服很多困难,受到大家的质疑。目前,GenAI面临以下两个突出问题。当然,只有发展才能解决问题。


第一,杀手级应用不足,面临商业化困难。在一个伟大的时代,必须有杀手级应用。例如PC时代的Office,桌面互联网时代的搜索,移动互联网时代的移动支付。GenAI是世界潮流,但在应用推广初期,美国公司的AI使用率仅为5.4%(来源:人口普查局,2024)。大型燃烧是美元,产量较少。GenAI是世界上最性感的企业, OpenAI 有三种盈利模式:会员订阅付费、开发者付费和微软,自成立以来收入累计不足20亿美元(来源:Finbold),但是融资需要113亿美元。GitHub微软 Copilot还采用会员订阅模式,客户每月需要支付10美元或100美元。但是由于会计成本高,微软平均每月亏损超过每个用户20美元,重度用户高达20美元。 80 来源:华尔街日报,2023.10)美元。GenAI还没有传统软件的规模效应,需要通过给予用户高额补贴来培育市场。国内用户更喜欢免费,为高质量的内容和知识付费的习惯尚未形成,会员订阅不成为主流。GenAI的商业模式仍处于探索的早期阶段。


第二,平台企业业绩没有得到显著提升,云和芯片是最大的受益者。GenAI的兴起为中国平台经济注入了一线活力,各大平台纷纷推出大模式。然而,GenAI的普及并没有显著提高平台企业的业绩,中国的网络平台仍处于低迷期。自ChatGPT发布以来,中国互联网公司的市值仍在上涨和下跌,尽管疫情结束、国家支持等利好因素叠加,但相当一部分公司下跌幅度较大,如图所示。


自ChatGPT发布以来,中国十大互联网公司的市值有涨有跌。来源:截至2024年4月11日,根据雪球财经数据,数据


大型训练需要花费大量的算率,云和芯片公司是直接受益者。GenAI总收入的10-20%将流向云服务提供商,A16Z(2023)数据显示。在这些公司中,创业 初期融资80%-90%用于云计算平台的购买率。作为全球三大云基础设施服务商,微软、亚马逊和谷歌也是最活跃的GenAI投资者,这并不奇怪。英伟达自ChatGPT发布以来,市值增长457%,成为全球市值第三高的企业,是最大的受益者。


第四次工业革命的谬论


自1956年达特茅斯会议提出“人工智能”术语以来,人工智能的发展经历了许多投机周期。这一次似乎不一样。即使对于怀疑者来说,ChatGPT的发布也意味着人工智能技术的重大进步。大家都兴奋地喊:人工智能驱动的第四次工业革命来了!


“纵观世界经济史,工业革命是唯一一件大事,”工业革命的影响是全面、深刻、长久的。(Irad Kimhi,2006年)。如果第四次工业革命到来,每个人都会充满自豪,经济会充满活力,生活会充满活力。然而,似乎不是。这是一个谬论。对此,时间可以给出答案,我们不必争论。有四个事实可以解释。


首先,人们对“智能”有着与生俱来的痴迷,人工智能的发展充满了乐观的思想。谢耕(2023)对他的评价是:“雄心勃勃,盲目乐观。”达特茅斯会议的主要参与者大胆推测:


一九五八年,艾伦·纽厄尔和赫伯特·西蒙(共同获得1975图灵奖):数字计算机将在十年内成为国际象棋世界冠军。 数字计算机将在十年内发现并证明一个重要的数学定理。


一九六五年,赫伯特·西蒙(1978年诺贝尔经济学奖获得者):机器将能够在20年内完成人们所能做的一切工作。


一九七○年,马文·闵斯基(1969图灵奖获得者):"我们将在三到八年内得到一台具有人类平均智能的机器."


其次,自2009年以来,我们一直在“经历”第四次工业革命(也有人说是第三次工业革命)。在中国知网上,标题为“第四次工业革命”和“第四次科技革命”的文章分别为386篇和48篇(不包括2024年),如图所示。微电子(1984)、云计算(2012)、物联网(2016)、大数据(2016)、区块链(2017)、工业化物联网(2017)、新型基础设施(2020)等,都被赋予了“第四次工业革命”的使命。现在轮到GenAI了。这就是说,GenAI需要和蒸汽机、发电机、内燃机、计算机和因特网一样高。


以“第四次工业(工业)革命”为题的中国知网文章分布


三是国外普遍将GenAI(或AI)比作智能手机、云计算、因特网等特殊技术,并且通常使用“可能”、“一”等词汇。比如:


黄仁勋(2023.2):“ChatGPT”the iPhone moment of AI”, OpenAI 所做的工作是“”one of the greatest things that have ever been done for computing”。


比尔·盖茨《The Age of AI has begun》(2023.3)图形用户界面和GPT是他一生中见证的两次革命性技术展示,并指出:“人工智能的发展和微控制器、个人电脑、互联网和手机的出现一样重要。”


贾西致股东信(2024.4)亚马逊CEO:“Generative AI may be the largest technology transformation since the cloud (which itself, is still in the early stages), and perhaps since the Internet.”


四是以往的工业革命并非预测结果,而是后人的总结。在第一次工业革命(1760-1840)结束40年后,术语“Industrial Revolution“只有在阿诺德·汤因比的推动下,才为大众所知;经济学家在第二次工业革命(1870-1914)结束40年后才开始使用“Second Industrial Revolution”,直到1969年,戴维·兰德斯的《普罗米修斯》才对其学术定义进行了规范化;第三次工业革命没有统一的认识,暂时不会出现。这种味道颇具“杰出无法计划”的味道,让我们期待着第四次工业革命的不同。


在这篇文章中,我得到了马骏、马源、石光、王明辉、李勇坚、白惠天等人的支持和帮助。


本文来自微信微信官方账号“腾讯研究院”(ID:cyberlawrc),作者:闫德利,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com