Nature:探索世界上最快超算的一天

2024-09-20

在美国田纳西州东部的一个山区,一个名为Frontier的破纪录超级计算为科学家提供了前所未有的机会,让他们可以研究从原子到星系的一切。



超级计算建设如火如荼,无论是主权AI还是科技巨头,都在不断地向英伟达输血,建立数据中心。


不久前,马斯克建立了10万个H100Colossus集群,被誉为世界上最强大的AI训练系统。


此前,截至2023年12月,世界上计算速度最快的超级计算机是位于美国田纳西州橡树岭的Frontier,也被称为OLCF-5。


Frontier配备了AMDCPU和GPU,包括50,000个Cpu(包括38,000个GPU),运算速度为1.102。 exaFLOPS,也就是每秒1.102百亿(1018)次浮点运算。


这一速度甚至比同时工作的10万台笔记本还要快,而且在2022年首次亮相时,Frontier还打破了一个纪录——首次突破了100亿个运算速度的门槛。



Frontier超级计算的覆盖面比两个篮球场还要大。


为了满足数值模拟在各个领域前沿科学研究中的需要,追求如此卓越的速度和规模。


Frontier非常擅长建立模拟,并且可以同时捕捉到大尺度的方法和细节,比如细微的云滴如何影响气候变暖的速度。


如今,研究人员已经从世界各地登录了Frontier,建立了所有从亚原子颗粒到星系的尖端模型,包括开源LLM,可以通过模拟蛋白质发现和涉及药物,模拟湍流来改善飞机发动机,并训练开源LLM可以与谷歌和OpenAI竞争。


然而,就在今年四月的一天,Frontier的运作出现了一些意外。


田纳西州橡树岭国家实验室科学主任Bronsonson,Frontier所在 Messer表示,Frontier的功耗急剧上升,以满足世界各地科学家的要求,峰值达到约27兆瓦,足以为大约10,000个家庭提供电力。



它还给超算制冷系统带来了挑战,用Messer的话来说,「机器正在运转,就像一只被烫伤的狗。」。


据2023年统计,Frontier共有1744个用户,覆盖18个国家,贡献的运算数据支持至少500篇已公开发表的论文。


探索Frontier秘密「大脑」内部


类似于我们所想像的场景,Frontier所在的机房类似于一个仓库,运转时产生的电子嗡嗡声稳定而柔和。


机房内有74个机架,每个节点分别包括4个GPU和1个CPU。由于GPU数量巨大,计算速度如此之快。


Messer实验室主任形容道,「这类GPU运行得很快,但也很愚蠢,它们可以一次又一次地做同样的事情。」


这类同时处理多项计算的功能对于超算的快速工作非常有用,但是除此之外,没有其他任务。


这种「愚蠢至极」这背后是一种实用性,各个领域的科学家都可以通过定制代码来运行GPU。


Frontier日夜运行,同样连轴转动的工程团队也负责运行、维护。


负责建设这个超级计算的工程师团队来自惠普公司,其中一名技术人员Corey Edmonds表示,他们的一个工程团队将继续监控Frontier,以确定是否有故障迹象。


比如ConnerConner中的一名晚班人员。 Cunningham的工作时间是晚上7点到早上7点,负责使用十多个监控器来关注网络和建筑物的安全,并对当地天气进行监控,以确保Frontier的正常运行。


实际上,大多数夜晚都是「平安夜」,一般情况下,Cunningham只需要检查几次,其它时间都可以在工作站学习。


「这个工作有点像消防员,如果发生什么事情,需要在职监控。」


助力大科学


虽然Frontier日夜不停地运转,但是研究人员申请使用机会,也并非一件容易的事情。


去年,科学主任Messer和其他三位同事负责评估和许可提案,他们批准了131个项目,通过率约为1/4,


申请者必须表明,他们的项目需要使用整个超算系统才能获得批准,通常用于建模各种时间和空间尺度。


每年有大约6500万个节点的Frontier(node-hour)可以使用,当科研人员获得的最常用的分配额度为50万个节点时,相当于整个系统连续运行三天。


根据Messer的说法,与其他数据中心相比,研究人员在Frontier上获得的计算资源大约是十倍。



Frontier拥有超过50,000个Cpu,并且使用液冷


有了更快的计算速度和更多的计算资源,研究人员可以做出更有野心的事情。「大科学」。


举例来说,在原子级精确地模拟生物过程,例如,溶液中的蛋白质或核酸是如何与细胞的其它部分相互作用的。


今年5月,一些学者用Frontier模拟了含有超过1550亿次水分子的立方体形状的水滴,大小约为人们头发宽度的十分之一,是历史上最大的原子级模拟器之一。


在短时间内,研究人员希望模拟细胞器为实验室提供数据;此外,他们还希望将这些高分辨率的模拟结果与X射线自由电荷激光器的快速显像相结合,以加快发现速度。


所有这些工作都是为未来更多的目标铺平道路——从原子开始对整个细胞进行建模。


随着Frontier的出现,气候模型也变得更加精确。



气候科学家Matttt去年 Norman和其他研究人员使用Frontier运行全球气候模型,分辨率为3.25公里,其中还结合了分辨率更精细、更复杂的云运动。


为建立近几十年的预测模型,Frontier的计算能力是非常必要的,并且需要使用整个系统的计算率来实现。


对适用于天气和气候预测的模型,每天至少需要一年的模拟运行。


Frontier可以每天模拟1.26年,这样可以让研究人员建立比以前更准确的50年预测。


若转移到其它计算机上,则要达到相同的分辨率,同时考虑到云的影响,处理速度要慢得多。


Frontier还可以在更大的宇宙级别上带来更高的分辨率。


Evananng大学的天体物理学家 Schneider还使用Frontier来研究银河系大小的星系是如何随着年龄的增长而演变的。


他们建立的星系模型跨越四个数量级,最大规模可以达到10万光年左右。然而,在Frontier之前,以类似分辨率模拟的最大结构是矮星系统,质量约为五十分之一。


Frontier对AI意味着什么?


作为世界第一,Frontier的地位更加独特,因为这款超级设备是为数不多的属于公共行政的设备之一,而不是由行业主导的。


由于AI领域的研究通常需要吞噬巨大的计算率,学术界和工业界的成果之间存在着巨大的差距。


有些学者统计过, 2021 2008年,96%的最大AI模型来自工业界。在平均水平上,工业模型的规模是学术模型的近30倍。


在投资金额方面,这种差异也是显而易见的。2021年,美国非国防公共机构为AI研究提供了15亿美元。同一年,全球工业支出超过3400亿美元。


从GPT-4开始、Gemini 自从Ultra和其他商业LLM发布以来,它们之间的差距进一步扩大。这种投资差距导致工业和学术界可用的计算资源明显不对称。


由于工业模型开发的目的是为了盈利,很多技术开发中必须面对的重要问题,如基础研究、低收入群体的需求、模型风险的评估、模型偏见的纠正等。


假如学术界要承担起这些责任,就需要能够与行业规模相匹配的算率,这就是Frontier的立足之地。


最典型的例子是,由科技公司培训的LLM通常保持一定的专有性,但研究人员通常会奖励自己免费为任何人开发模型。


Abhinavavava,马里兰大学帕克分校。 Bhatele说,这将有助于大学研究人员与企业竞争,「唯一一种训练类似规模的学术人员的方法就是拥有Frontier这样的资源。」


Bhatele认为,Frontier等设施就是在AI领域发挥着这一重要作用,让更多的人参与到科研开发中,共享成果。


但值得注意的是,国家、科技公司和非营利组织之间的计算率基础设施竞争仍在继续,像Frontier这样的强大能力最终会下降。


在规划Frontier的接班人中,橡树岭实验室被称为Discovery,处理速度将提高3。~5倍。


Frontier比2014年最快的超算天河二号A快35倍,比2004年最快的超算Earth快35倍。 Simulator快33,000倍。



研究者们仍然渴望更快的速度,但是工程师们面临着不断的挑战,一方面是能源。


与Summit相比,Frontier的能源效率提高了4倍以上,这在很大程度上是由于不同的冷却方案。


与Summit使用冷水不同,Frontier使用室温水冷却。Frontier的总能耗约为3%~4%用于冷却,而Summit 这个比例是10%。


与 Summit 不同的冷冻水使用。Frontier 总能量消耗大概 3-4% 用来冷却,而且 Summit 这个比例是 10%。


多年来,能源效率一直是构建更先进超算的关键瓶颈,但是在可预见的未来,这一瓶颈估计还会继续存在。


实验室主任Messer说, 「2012年,我们本可以建造一个100亿个级别的超级计算机,但是增加动力的成本太高了,应该多一两个数量级的电力。」


参考资料

https://www.nature.com/articles/d41586-024-02832-5


本文来自微信微信官方账号“新智元”,作者:乔杨,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com