钱德沛,中国科学院教授:高性能计算与AI融合趋势
目前,传统科学与工程计算的需求不断增加,AI 计算需求飙升,云已成为商业和企业的基础。 IT 基础设施——目前对计算的需求呈现出前所未有的趋势。
最近举办的高性能计算与人工智能协同创新国际论坛(HACI)事实上,中国科学院教授、北京航空航天大学教授钱德沛在讲话中指出,随着技术的迭代发展,计算解决问题的范式也在不断变化。从早期的数学模型驱动,到数据驱动, AI 赋能。而 HPC(高性能计算)和 AI 结合将重塑计算科学,IT 产业和人类社会的发展模式。
在接受 21 在接受《世纪经济报道》记者采访时,钱德沛分析说,目前超算和智算的发展和应用各有侧重,但随着彼此在发展中的相互学习,不排除未来两者的结合。
他认为 HPC 与 AI 结合将形成三个关键层次:第一,“赋能” AI(For AI)",也就是说,利用强大的算率来提高。 AI 性能;其次是“借力” AI(By AI)",通过 AI 技术使计算系统更智能、更高效;最终“结合” AI(Being AI)",使 AI 技术已成为计算系统的核心和灵魂。
钱德沛。数据图
AI 与 HPC 结合
回顾计算领域的发展历程,在此之前的几十年里,世界主要经济正在推动超级计算机能力的不断迭代演变。
在 AI 在推动下,新的智能计算也在兴起。钱德沛对 21 据《世纪经济报道》记者介绍,智算和超算本质上属于计算范围,但根据应用特点而有所不同。
其中,超级计算因其性能、计算速度、存储容量等而被归类为超级计算机。,远远超过通用的服务器系统,但这不是一个严格的学术定义。随着技术的发展,超级计算指标每年都在刷新。智能计算主要面向大模型的发展,支持人工智能和深度学习的应用。
“两者的区别在于,在硬件方面,超级计算侧重于双精度浮点计算,而智能计算侧重于整数计算或半精度计算。 16 位置浮点计算。"他进一步指出,共同之处在于用计算来解决问题。“近年来,超级计算实际上是借助人工智能方法解决传统计算问题,例如混合精度计算,从而获得更高的处理速度。因此,我认为,随着两者的相互促进,未来有可能走向融合,即不再区分计算机是属于超算还是智算。"
钱德沛指出,大型模型的出现是为了赋能各行各业,当然也包括计算领域。业界提出“ AI for science “这是因为早期的科学发现活动需要数学模型来驱动,但它的方法随着技术的迭代而变化。如今,传统问题是通过深度学习和大模型来解决的。
“人工智能和计算是双向赋能。”他分析说,比如因为超级计算在设计之初并不是专门为人工智能算法而生,所以在支持。 AI 这方面会有一些缺陷,比如能耗高。但是, AI 与超算的互动,AI 它会影响超级计算的演变,如系统架构、加快硬件和软件算法等。,从而改善传统超级计算在性能、灵活性或智能化方面的不足。
钱德沛在前面的演讲中指出,HPC 与 AI 在相结合的过程中,赋能 AI(For AI)通过提供更强大、更有效的计算机资源,阶段 AI 研究与应用,面向 AI 在计算机软件设计中,需要衡量各种因素,例如,处理器的设计将从 ASIC 到专用加速器,再到面向智能计算的通用加速器。 CPU 等,还需要促进硬件和软件之间的协同。
在借力 AI(By AI)阶段,可以借助 AI 通过云端资源的协同,可以使计算机更智能、更高效、更节能,追求更低的整体成本,同时也可以使用。 AI 通过使用大模型方法对Cpu设计自动化进行研究,对计算系统进行优化。
在融合 AI(Being AI)在这个阶段,智能变成了计算机的本质属性;计算机将内置原生。 AI 建立发动机和智能服务 AI 应用生态系统,支持更广泛的应用。AI 它还会对计算产生深远的影响,促使我们重新思考计算的本质。
伴随着大型语言模型的不断发展,未来还可能给计算行业的生态带来一定的变化。
“大模型还处于竞争时期。当然,最近模型厂商降价的趋势意味着大模型的发展正在逐渐趋于收敛。这显然会淘汰一些性能差的落后模型。”钱德沛对 21 《世纪经济报道》记者指出,目前超算主要是为大型模型提供计算能力平台,短期内不会受到模型降价的直接关系。
“然而,从长远来看,这种降价会影响国家对计算率基础设施的规划和布局。”他分析说,由于目前智能计算率相对紧张,随着未来“百模对抗”团队的缩小,是的 AI 训练需求可能没有以前预期的那么高,进而需要对智能算率进行更精细、更合理的规划。
“例如,要使模型更加高效、准确, AI 软体栈更健全,这样才更有竞争力。“钱德沛认为,为了更好地支持人工智能的发展需求,我们应该考虑如何适应这一趋势,开发下一代超级计算系统。事实上,我们现在探索的超级计算系统正在发生变化。”比如增强一些半精度浮点能力,降低一些双精度浮点能力。所以,这一竞争最终可能会影响国家层面对算率发展的总体规划和发展战略。"
驱动产业协同
回顾全球主流超算发展进程,钱德沛认为国内和国际的整体战略是一致的。然而,在发展时期,中国在上个世纪。 90 年代开始跟上海外的步伐,逐步实现并跑。到达 2010 2008年,中国开发了计算性能世界领先的超级计算机。
“从发展战略的角度来看,中国在很多方面都有一定的特点。”他分析说,一是异构加速体结构在中国较早大规模选择,二是强调与工业应用相结合。
"大概 2010 2008年,“天河一号”超级计算机率先采用异构加速结构,使得其计算速度、能效在世界范围内取得了良好的效果。“钱德沛进一步指出,另外,在应用领域,我国超算在工业场景中有更多的应用实践,例如促进应用。 C919 大型飞机、汽车工业等的发展,使得超算持续赋能传统产业升级。“当然,总体而言,我国和国际主流在超算发展的宏观战略层面是趋同的,也各有特色。"
2023 2008年,科技部推动了超算互联网的布局。钱德沛分析说,超级计算互联网不是研究互联网,而是借鉴互联网的概念来发展超级计算基础设施,但是超级计算中心之间的网络性能对应用也有很大的影响。长期以来,我国超算中心之间的互联网受到我国网络基础设施性能和成本的限制,其中成本是一个重要因素。如果想要一个超算中心保持一个非常高速的互联网链接,每年都要支付高额的通信费用。
“随着计算需求的应用越来越广泛,对中心之间的互联性能要求也越来越高。比如用多个超级计算中心协同训练一个大模型,对通信性能的要求会更高。因此,国家超级计算也计划提高相互联系的性能,以便更紧密地将多个超级计算中心联系起来,更有利于共同解决一个大问题。”他进一步分析道。
当然,这个问题毕竟是少数,需要多个超级计算中心共同解决。例如,在药物研发过程中,计算需求可以分发到不同的超级计算中心进行计算。因为它们之间的联系没有那么紧,所以更多的应用是在单个超级计算机中完成的。
因此,在钱德沛看来,连接互联网上的超级计算机,形成一个可以普遍访问的计算基础设施,其主要功能是共享资源,提高资源利用率。提高超级计算中心之间的网络性能,提高数据传输速度,不仅可以在有需要的时候实现多中心协同计算,还有利于计算任务和数据在各中心之间的快速分配,使计算资源得到更高效的利用。
当然,最后一英里的问题也值得关注。钱德沛指出,即使超级计算中心通过高速数据连接形成紧密耦合,如果用户端(需求者)的网络性能不好,也无法形成高效闭环,因此这是一个需要不断解决的系统优化问题。
对于高性能计算未来的发展方向,钱德沛认为一方面需要跨学科努力,计算机科学家、数学家、领域科学家、软件工程师需要合作;另一方面,我们还需要积极开展国际合作,明确主要问题,定义研究目标和路线图,分享研究经验,共同解决问题。
“世界计算网络联盟”也在论坛期间举行。(World Computing Net Consortium,WCNC)技术委员会成立仪式”。该联盟由鹏城实验室发起,将汇聚全球计算、智能、网络、通信等领域的技术和产业优势,希望打造国际产学研新生态,推动应用领域拓展、技术体系改革、结构模式创新。
对此,钱德沛表示,这个联盟是由多个机构自发成立的,这也代表了中国在推动世界共同命运方面的努力——希望把计算率作为整个人类社会的基础设施来发展,这需要不同国家的共同努力。
“成立联盟是第一步,让大家交流经验,一起讨论研究下一步如何发展,一起解决技术问题。事实上,中国和国外已经超越了计算和计算率的发展。 20 2008年的合作历史,包括高性能计算算法和性能优化,都有很好的合作基础。“他指出,在人工智能发展的背景下,工业界也希望通过深化国际合作来寻求新的突破。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com