先进的“百模对决” 如何在大湾区打赢AI追逐赛的后半场?
2023 年初,ChatGPT 掀起大模型热潮,国内互联网厂商也纷纷结束“手捏模型”,“百模对决”风云变幻。
但到了 2024 下半年,疯狂开始逐渐消退,从科技、学术到投资进入理性阶段——反思生成形式。 AI 如何落地,如何商业化,大模型的能力边界和迭代方向。
“从国内的整体发展来看,到今年 7 月底,中央网信办批准的大模型大约有 200 其中只有三分之一是通用大模型,三分之二是行业大模型。在未来,我预测通用大型模型的数量和比例会越来越小,行业内的大型模型也会越来越多。“香港科技大学董事长、美国国家工程院外籍院士、英国皇家工程院外籍院士沈向洋 2024 在大湾区科学论坛上说。
简而言之,通用大模型将逐渐向行业方向收敛,这意味着人工智能与行业的结合将越来越紧密,实体经济的赋能将更加显著。如何在粤港澳大湾区挖掘人工智能在民营企业活跃的新机遇?
11 月 16 — 18 日,2024 大湾区科学论坛在广州南沙举行,100多位顶尖科学家聚集在这里,包括诺贝尔获得者、国家最高科技奖获得者和菲尔兹奖获得者,热烈讨论人工智能等前沿技术话题。
资料图片
从通用到工业模式
业内普遍将大模型训练描述为“炼药”- Transformer 在结构的基础上,在堆积100亿、1000亿的其他参数,达到一定的阀值后,模型语言逻辑、推理和生成能力明显跃升,俗称“出现”。
但是这一过程需要花费大量的算率,烧钱自然不在话下。根据国盛证券的估计,GPT-3 一次训练的费用大约是 140 万美金。OpenAI 财务数据显示,到 2029 每年都害怕实现盈利,直到实现盈利, 2026 每年的损失可以达到 140 亿美元,其中大部分费用都要投入到模型训练中。
不仅 OpenAI,烧钱基本上是大模型公司的常态,所以如何实现盈利,完成业务转型,成为这些企业面临的现实问题。对于行业来说,除了对话,还需要回答大模型还能用来做什么的问题。
“中国大型训练模式的训练速度非常快,最终国内还会剩下几家企业拥有万卡算率,才能做出真正的底座大模式。一旦有了这样一个通用的大模型,其实更有意思的是行业大模型。“沈向洋指出,未来在医疗、金融等垂直跑道上,有千张显卡可以做行业大模型。每个企业也必须做自己的大模型,在行业大模型和通用大模型的基础上添加自己的数据。几百张卡片可以作为公司的大模型,可以提高内部效率,提高外部产品的可用性。
Gartner 问卷调查发现,70% 公司正在投资生成性 AI 研究,并将其纳入其业务战略。
从今年开始,谷歌,微软和微软 Meta 他们都在开发自己的专属定制模型,为用户提供个性化服务。应用于特定行业,包括预训练、模型对齐、监管微调等。
郭嵩,加拿大工程院教授,欧洲科学院教授,香港科技大学计算机科学与工程系教授。 21 《世纪经济报道》记者表示,学术界正在做这件事 0-1 科学发现,不一定能直接产生经济效益。近年来,我们的团队通过联合实验室与大企业建立了密切的联系,并与医学院和大医院建立了合作关系,对医疗医学有了更深入的了解。在此基础上,可以做到精确的垂类大模型,不久前团队刚刚发布了四个医疗大模型,引起了不小的反响。这种方法是一种长期的方法, AI 将技术、科学计算公式融入行业,将知识与特定领域融为一体,从而可能产生真正有效的大模型。
大型模型正在“向下扎根”,这无疑是大湾区产业生态活跃的优势。
中国科学院教授、深圳大学校长毛军发现,珠三角最重要的优势是民营企业非常活跃,创新创业的氛围应该说是中国乃至世界上最好的地区之一。人工智能技术产业化无非是两种模式,一种是两种模式, AI X,另外一种是 X AI,X 就是工业应用,而毛军感觉到了 X AI 也许更重要的是,各行各业的企业、企业家都应该对人工智能提出要求,并找出相关的应用。
网络层是大湾区人工智能的主要力量领域。以广州为例。丰富的使用场景吸引了大量的人工智能企业,云从科技、文远知行、极飞科技等明星企业应运而生。他们在自动驾驶、智能农业等领域走出了多元化的发展道路。
关注“卖铲子的人”
业内人士普遍认为,人工智能的发展有三个要素——数据、计算率和算法。算法决定了模型的准确性和质量,信息是营养,内容输出的质量是决定,计算率是铁铲,是训练大模型的基础。
沈向洋提到了一组数据,从 2019 到目前为止,与前一年相比,每年最新的大模型所需的计算能力一开始是以每年六七倍的规模增长的。近年来,它趋于稳定,每年增长约四倍。想像一下,计算能力的需求每年增加几倍,十年后这个数字会很夸张。由于大型模型对应大量参数,所需数据量也在增加,训练模型的计算能力需求也会急剧增加。因此在整个 AI 在这波浪潮中,英伟达是最大的赢家。
“这几年我常说一句话,叫‘说卡伤感情,没有卡没有感情’,算率是人工智能发展的门槛。”沈向洋指出。
在过去的几年里,英伟达的市值翻了一番。 10 倍,一度登上全球市值第一,可见算率在人工智能江湖中的地位。
但是业界也知道,依靠单个“卖铲子”的人是有风险的,因为他们可以垄断供货,操纵价格。
广东省实验室(深圳)协理副主任黄哲学表示,人工智能和数字经济面临的一个主要挑战是,英伟达有限 GPU 出口,以前有卡可以建大规模集群,现在不一定是患者。要解决这个问题,我们还是要走自力更生的道路,着眼于国内的计算率。因此,我们鹏城云脑, II 到 III 都是华为提供的自主芯片。
与此同时,处理国内计算率问题最重要的还是生态问题。黄哲进一步指出,目前我们使用的许多大型模型、开源软件都来自海外,大部分都是以英伟达为基础的。自主创新之后,由于芯片的变化,底层的一些算法就不一样了,因此必须开发出类似英伟达的算法。 CUDA 系统,能适应国外软件,同时还能独立开发自己的创新应用,从而解决计算能力问题。
聚焦大湾区,深圳正在大力建设国家超算深圳中心、鹏城云脑、腾讯云等计算率基础设施。以前 IDC 发布的《全球计算能力指数评估报告》显示,2018年,中国计算率产业规模和多样性持续快速增长。 年到 2022 2008年,深圳的算率规模位居全国前三。
去年 5 月,鹏城实验室首次公布了中国计算能力网计划。中国工程院教授、鹏城实验室主任高文在大湾区科学论坛上介绍,鹏城云脑作为国家重大科技基础设施,Ⅱ已在 IO500 在全球总榜单中持续 8 第二次夺得魁首,建设中的鹏城云脑Ⅲ完成后,计算率规模将达到 16000P,相当于 832 万台家用计算机算率之和。
“大模型并非无所不能”
今年 6 月份,牛津大学发布研究报告《Theory is all you need》,标题与大模型开山佳作《Attention Is All You Need》相互照顾,但是牛津报告批评了以大模型为代表的 AI 局限性问题。报告指出,人类认知的本质是“理论驱动”,人类不仅可以通过当前的数据进行合理的推理,还可以在假设、直觉和跨领域联想的基础上提出前瞻性的创新思路。但是大型模型的本质更接近于模仿现有知识,而不是探索新知识的原创性。
沈向洋也认为,大模型虽然做出来了,但是无法解释,不稳定,所以出现了很多问题。人们认为智力是有限的,好像大模型出来之后,智力就出来了。但与此同时,很多人也在想,这样的系统是否真的可以走得很远。去年,我还组织了一批香港科技大学的科学家来讨论“出现”背后的数学原理是什么,并试图打开大模型的“黑盒”。
李宗鹏也是清华大学教授 21 《世纪经济报道》记者表示,大模型出来后,很多人认为它可以用来做很多事情,颠覆整个经济形态,但事实上,大模型并非无所不能。便说 AI 从数学的角度来看,幻觉是一个大模型无法摆脱的问题。因为自然语言理解是基于概率产生和输出内容的,所以没有办法保证100%准确。因此 AI 可以做艺术,文本创作,但是在做特别精确的事情时,肯定会有局限性。
目前,大模型仍然遵循规模法则。(scaling law)在探索中,即参数值的堆叠和喂养数据越多,模型就越强大。然而,质疑的声音不时出现。即使互联网数据浩如烟海,总有一天会用完,通过堆叠参数训练模型,这种方法会越来越不经济。规模法则还是可行的方法吗?
在郭嵩看来,从目前来看,顶尖的科技公司仍然相当坚信规模法则。我相信,随着参数和数据的指数级增长,出现的能力会明显增强。换句话说,投入和产出大致是成比例的。对于未来如何去颠覆,下一个规律是什么,需要科学界和行业去探索。但是值得注意的是,李飞飞教授提出的空间智能,她认为这就是 AI 下一个方向。简单来说,现在的大模型还停留在语言层面,但是语言是分散的,很难形成对物理世界的真正理解。因此,通用人工智能只有结合对空间、时间等深刻尺度的理解,才能进入通用人工智能。(AGI)更近一步。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com