Nature：探索世界上最快超算的一天

2024-09-20

在美国田纳西州东部的一个山区，一个名为Frontier的破纪录超级计算为科学家提供了前所未有的机会，让他们可以研究从原子到星系的一切。

超级计算建设如火如荼，无论是主权AI还是科技巨头，都在不断地向英伟达输血，建立数据中心。

不久前，马斯克建立了10万个H100Colossus集群，被誉为世界上最强大的AI训练系统。

此前，截至2023年12月，世界上计算速度最快的超级计算机是位于美国田纳西州橡树岭的Frontier，也被称为OLCF-5。

Frontier配备了AMDCPU和GPU，包括50,000个Cpu(包括38,000个GPU)，运算速度为1.102。 exaFLOPS，也就是每秒1.102百亿(1018)次浮点运算。

这一速度甚至比同时工作的10万台笔记本还要快，而且在2022年首次亮相时，Frontier还打破了一个纪录——首次突破了100亿个运算速度的门槛。

Frontier超级计算的覆盖面比两个篮球场还要大。

为了满足数值模拟在各个领域前沿科学研究中的需要，追求如此卓越的速度和规模。

Frontier非常擅长建立模拟，并且可以同时捕捉到大尺度的方法和细节，比如细微的云滴如何影响气候变暖的速度。

如今，研究人员已经从世界各地登录了Frontier，建立了所有从亚原子颗粒到星系的尖端模型，包括开源LLM，可以通过模拟蛋白质发现和涉及药物，模拟湍流来改善飞机发动机，并训练开源LLM可以与谷歌和OpenAI竞争。

然而，就在今年四月的一天，Frontier的运作出现了一些意外。

田纳西州橡树岭国家实验室科学主任Bronsonson，Frontier所在 Messer表示，Frontier的功耗急剧上升，以满足世界各地科学家的要求，峰值达到约27兆瓦，足以为大约10,000个家庭提供电力。

它还给超算制冷系统带来了挑战，用Messer的话来说，「机器正在运转，就像一只被烫伤的狗。」。

据2023年统计，Frontier共有1744个用户，覆盖18个国家，贡献的运算数据支持至少500篇已公开发表的论文。

探索Frontier秘密「大脑」内部

类似于我们所想像的场景，Frontier所在的机房类似于一个仓库，运转时产生的电子嗡嗡声稳定而柔和。

机房内有74个机架，每个节点分别包括4个GPU和1个CPU。由于GPU数量巨大，计算速度如此之快。

Messer实验室主任形容道，「这类GPU运行得很快，但也很愚蠢，它们可以一次又一次地做同样的事情。」

这类同时处理多项计算的功能对于超算的快速工作非常有用，但是除此之外，没有其他任务。

这种「愚蠢至极」这背后是一种实用性，各个领域的科学家都可以通过定制代码来运行GPU。

Frontier日夜运行，同样连轴转动的工程团队也负责运行、维护。

负责建设这个超级计算的工程师团队来自惠普公司，其中一名技术人员Corey Edmonds表示，他们的一个工程团队将继续监控Frontier，以确定是否有故障迹象。

比如ConnerConner中的一名晚班人员。 Cunningham的工作时间是晚上7点到早上7点，负责使用十多个监控器来关注网络和建筑物的安全，并对当地天气进行监控，以确保Frontier的正常运行。

实际上，大多数夜晚都是「平安夜」，一般情况下，Cunningham只需要检查几次，其它时间都可以在工作站学习。

「这个工作有点像消防员，如果发生什么事情，需要在职监控。」

助力大科学

虽然Frontier日夜不停地运转，但是研究人员申请使用机会，也并非一件容易的事情。

去年，科学主任Messer和其他三位同事负责评估和许可提案，他们批准了131个项目，通过率约为1/4，

申请者必须表明，他们的项目需要使用整个超算系统才能获得批准，通常用于建模各种时间和空间尺度。

每年有大约6500万个节点的Frontier（node-hour）可以使用，当科研人员获得的最常用的分配额度为50万个节点时，相当于整个系统连续运行三天。

根据Messer的说法，与其他数据中心相比，研究人员在Frontier上获得的计算资源大约是十倍。

Frontier拥有超过50,000个Cpu，并且使用液冷

有了更快的计算速度和更多的计算资源，研究人员可以做出更有野心的事情。「大科学」。

举例来说，在原子级精确地模拟生物过程，例如，溶液中的蛋白质或核酸是如何与细胞的其它部分相互作用的。

今年5月，一些学者用Frontier模拟了含有超过1550亿次水分子的立方体形状的水滴，大小约为人们头发宽度的十分之一，是历史上最大的原子级模拟器之一。

在短时间内，研究人员希望模拟细胞器为实验室提供数据；此外，他们还希望将这些高分辨率的模拟结果与X射线自由电荷激光器的快速显像相结合，以加快发现速度。

所有这些工作都是为未来更多的目标铺平道路——从原子开始对整个细胞进行建模。

随着Frontier的出现，气候模型也变得更加精确。

气候科学家Matttt去年 Norman和其他研究人员使用Frontier运行全球气候模型，分辨率为3.25公里，其中还结合了分辨率更精细、更复杂的云运动。

为建立近几十年的预测模型，Frontier的计算能力是非常必要的，并且需要使用整个系统的计算率来实现。

对适用于天气和气候预测的模型，每天至少需要一年的模拟运行。

Frontier可以每天模拟1.26年，这样可以让研究人员建立比以前更准确的50年预测。

若转移到其它计算机上，则要达到相同的分辨率，同时考虑到云的影响，处理速度要慢得多。

Frontier还可以在更大的宇宙级别上带来更高的分辨率。

Evananng大学的天体物理学家 Schneider还使用Frontier来研究银河系大小的星系是如何随着年龄的增长而演变的。

他们建立的星系模型跨越四个数量级，最大规模可以达到10万光年左右。然而，在Frontier之前，以类似分辨率模拟的最大结构是矮星系统，质量约为五十分之一。

Frontier对AI意味着什么？

作为世界第一，Frontier的地位更加独特，因为这款超级设备是为数不多的属于公共行政的设备之一，而不是由行业主导的。

由于AI领域的研究通常需要吞噬巨大的计算率，学术界和工业界的成果之间存在着巨大的差距。

有些学者统计过， 2021 2008年，96%的最大AI模型来自工业界。在平均水平上，工业模型的规模是学术模型的近30倍。

在投资金额方面，这种差异也是显而易见的。2021年，美国非国防公共机构为AI研究提供了15亿美元。同一年，全球工业支出超过3400亿美元。

从GPT-4开始、Gemini 自从Ultra和其他商业LLM发布以来，它们之间的差距进一步扩大。这种投资差距导致工业和学术界可用的计算资源明显不对称。

由于工业模型开发的目的是为了盈利，很多技术开发中必须面对的重要问题，如基础研究、低收入群体的需求、模型风险的评估、模型偏见的纠正等。

假如学术界要承担起这些责任，就需要能够与行业规模相匹配的算率，这就是Frontier的立足之地。

最典型的例子是，由科技公司培训的LLM通常保持一定的专有性，但研究人员通常会奖励自己免费为任何人开发模型。

Abhinavavava，马里兰大学帕克分校。 Bhatele说，这将有助于大学研究人员与企业竞争，「唯一一种训练类似规模的学术人员的方法就是拥有Frontier这样的资源。」

Bhatele认为，Frontier等设施就是在AI领域发挥着这一重要作用，让更多的人参与到科研开发中，共享成果。

但值得注意的是，国家、科技公司和非营利组织之间的计算率基础设施竞争仍在继续，像Frontier这样的强大能力最终会下降。

在规划Frontier的接班人中，橡树岭实验室被称为Discovery，处理速度将提高3。～5倍。

Frontier比2014年最快的超算天河二号A快35倍，比2004年最快的超算Earth快35倍。 Simulator快33,000倍。

研究者们仍然渴望更快的速度，但是工程师们面临着不断的挑战，一方面是能源。

与Summit相比，Frontier的能源效率提高了4倍以上，这在很大程度上是由于不同的冷却方案。

与Summit使用冷水不同，Frontier使用室温水冷却。Frontier的总能耗约为3%～4%用于冷却，而Summit 这个比例是10%。

与 Summit 不同的冷冻水使用。Frontier 总能量消耗大概 3-4% 用来冷却，而且 Summit 这个比例是 10%。

多年来，能源效率一直是构建更先进超算的关键瓶颈，但是在可预见的未来，这一瓶颈估计还会继续存在。

实验室主任Messer说，「2012年，我们本可以建造一个100亿个级别的超级计算机，但是增加动力的成本太高了，应该多一两个数量级的电力。」

参考资料

https://www.nature.com/articles/d41586-024-02832-5

本文来自微信微信官方账号“新智元”，作者：乔杨，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

高中生23点以后上厕所是一个很大的违纪行为？山西省怀仁教育局:责令学校深刻吸取教训

四分之一的“鸣潮”？FunPlus试水二游，《归龙潮》数据如何？

2024年中国金融大模型产业发展洞察报告

今天下午至晚上，台风“普拉桑”登陆浙江沿海，下午上海雨势加强。

浓眉又一次逼宫！湖人队考虑重签：他是抵抗约基奇的首选。

项目推荐

迪瓜租机

爱亲母婴连锁品牌

吖扁鱼智能回收驿站