Frontier 超级计算机的所有秘密(一)

发布时间:2024-04-12      浏览量: 277

它是干什么用的?Frontier 是在橡树岭国家实验室运行的,从反应堆建模到气候预测,世界上最强大、最快的超级计算机。

这个问题有更广泛的背景。我经常被问到,如果我们每个人都可以拥有一台计算机,为什么我们还要建造如此强大的机器呢?当然,超级计算机是非常昂贵的机器,消耗大量能源,但我们从它们身上得到的东西更有价值。今天我将尝试用 Frontier 超级计算机的例子来解释它。

内容
1. 为什么我们需要超级计算机?
2. 哪些超级计算机速度最快?
3. 为什么我们需要如此多的计算能力?
4. 超级计算机和医学
5. 前沿与新气候模型
6. 前沿与材料技术

7. 超级计算机的未来?


为什么我们需要超级计算机?

简而言之,超级计算机可以处理大量信息。我们的世界正在迅速变化,人类创建了一个巨大的数据库,需要对其进行处理、分析、分组、保存。例如,这将帮助我们获得新的、更便宜和更有效的药物、更耐用的材料、预测数十年的气候变化等。超级计算机使我们能够对我们将要建造的物体(例如聚变反应堆)的行为进行建模。这些只是最快超级计算机应用的一些例子。是的,它们的制造和维护成本非常昂贵,但它们是值得的。

image.png

但让我们从基础开始。到底什么是超级计算机?目前还没有明确的定义。然而,当前每台超级计算机的一个特征是非常高的计算能力。网上可以找到一个简化的定义,根据超级计算机是指能够实现至少1 teraflops计算性能的机器, 即 1012 每秒(万亿)次浮点运算。与普通家用电脑相比,这个数量很多。

如果早期计算机的速度是用 IPS(每秒指令数)来衡量的,那么就必须为超级计算机发明一个新的单位——FLOPS,即每秒的浮点运算次数。这个数字越高,计算机的功能就越强大。

当然,基于特定计算阈值的方法很快就会过时,因为作为这些机器核心的处理器的性能在不断发展和增长。随着新处理器的每次发布,现代计算机的生产力也随之提高。然而,建造它们非常困难且经济昂贵。

哪些超级计算机速度最快?

我们有关于这个问题的最新数据。 2023 年 11月,多年来定期发布地球上最强大计算机性能评级的 Top500.org 网站发布了最新的第62期 Top500 排名,其中列出了目前存在的500台最高效的超级计算机。

image.png

Frontier 系统仍然是地球上最高效的超级计算机。这台超级计算机是世界上第一个百亿亿次计算系统,即其速度超过了1亿亿次浮点运算。 Frontier 本身位于美国田纳西州橡树岭的国家实验室。该超级计算机目前处于领先地位,其 HPL 分数(高性能 LINPACK - 一种评估超级计算机原始性能的特殊测试)为 1193 EFlops(10 exaflop 是 万亿次,即 18 每秒浮点计算)。

比较:最强大芯片的速度 Apple M1 Ultra 的运算能力约为 21 teraflops(一万亿次浮点运算)。数量巨大,这是事实。令人惊奇的是,早在2002年就有一台计算机的速度达到了更高的水平——这就是日本科技巨头NEC公司的地球模拟器超级计算机。它的速度约为 36 terflops!

image.png

Frontier 使用 AMD EPYC 64C 2 GHz 处理器,基于最新的 HPE Cray EX235a 架构。它由 9408 个 AMD EPYC 处理器和 37632 个 AMD Instinct MI250x 加速器组装而成。该系统总共拥有 8 个处理器和图形核心。此外,Frontier 的能效高达 699 GFlops/瓦,并使用 HPE Slingshot 904 网络进行数据传输。因此,在测试期间,它能够产生高达 52,59 exaflops 的速度。峰值性能达到创纪录的 11 exaflops。该设备的成本估计为 1,1 亿美元。

这是世界上第一台也是迄今为止唯一一台以触发器模式工作的超级计算机。 Frontier 一年前成为领先者,但在 2023 年 2024 月的排名中不允许任何人侵犯其位置。到目前为止,到 年初,美国的超级计算机是世界上生产力最高的。

但科学家们已经暗示,也许一段时间后他将不得不承认另一台美国机器的优越性:极光超级计算机。

image.png

根据最新排名,运行于美国伊利诺伊州阿贡领先计算设施的采用英特尔 Sapphire Rapids 芯片的新型 Aurora 超级计算机以 585,34 PFlops 的 HPL 性能排名第二。虽然这只是 Frontier 旗舰超级计算机性能的一半,但 Aurora 系统尚未完成,目前仅计划的最终系统的一半可以运行。完成后,Aurora 的预测性能可能会超过 2 EFlops。英特尔创建的 Aurora 超级计算机基于 HPE Cray EX 架构 - 英特尔百兆级计算 Blade,采用英特尔至强 CPU Max 系列处理器和英特尔数据中心 GPU Max 系列加速器。与 Frontier 中一样,HPE Slinghot-11 网络负责数据传输。


image.png

第三高效的超级计算机是一种名为 Eagle 的新型云系统 Microsoft Azure 在美国。这在某种程度上是一种技术好奇心,因为 Eagle 是一款云超级计算机,在 Top500 排名中排名第三,这是云系统有史以来取得的最高排名。 Microsoft Eagle拥有561,2 PFlops的HPL性能,计算核心是Intel Xeon Platinum 8480C处理器和加速器 NVIDIA H100。

这里值得一提的是日本超级计算机Fugaku,其性能比Frontier低三倍以上,也是过去生产力最高的超级计算机之一——LUMI。尽管中国人仍在建设强大的东西,但这一切都在未来。

为什么我们需要如此多的计算能力?

你可能会钦佩地球上最快机器的效率,但它们所实现的性能并不是打破记录,而是在最短的时间内得到想要的计算结果。没有超级计算机用户使用该机器来编写电子邮件或准备演示文稿。使用此类机器来执行我们可以在家里的设备上执行的任务将是一种可怕的浪费。毕竟,超级计算机的计算潜力允许您执行普通计算机无法执行的操作。

我们正在谈论哪些任务?首先,那些能够带来实际利益的东西,这些不一定是能够立即转化为金钱的东西。值得回顾的是,Frontier超级计算机的创建仅花费了约600亿美元。当然,它的使用和持续维护成本也很大。该超级计算机占地680平方米,耗电量21兆瓦。

image.png

Frontier 与其他超级计算机一样,可用于气候建模、对人类至关重要的新药物的研究和生产、新材料技术的研究等任务。当然,此类设备执行的任务范围要广泛得多,包括分析各种类型的巨大数据集:金融、医疗、卫星图像、物理现象建模等等。事实上,Frontier 是第一台百亿亿级超级计算机,这使得它能够执行即使在其他超级计算机上也很难完成的任务。

一个例子是热核反应堆整个生命周期的建模。是的,这不是一个错误。世界上还没有一个聚变发电厂,但 Frontier 强大的百亿亿次计算能力使得模拟假想的聚变反应堆的行为并预测此类反应堆中等离子体的行为成为可能。当然,在热核能源商业化之前,很难想象其带来的好处,但世界上没有人怀疑,有助于创造和发展热核能源、使全人类摆脱能源短缺的计算能力是值得的投资。


从设计到生产

灏域为您提供

全产业链解决方案

开始我们的合作

+86 18600523371