一台超级计算机的HPC和AI对抗大流行
通常,学术机构和国家实验室中安装的超级计算机只需配置一次,就可以在金钱用完,安装和测试,合格使用之前投入尽快获取,并投入使用四到五个甚至更长的时间。这是一台罕见的机器,即使升级一次,也很少升级。
但这并不是劳伦斯·利弗莫尔国家实验室的“电晕”系统的情况。该系统于2017年启用,当时北美发生了日全食,因此也有了绰号。虽然这台机器是根据商品技术系统(CTS-1)采购的,不仅可以做有用的工作,而且可以用来评估AMD提供的CPU和GPU架构,但它并没有以大流行的名字命名,而大流行现在已经在地球上蔓延了,该机将再升级一次,以作为抵抗SARS-CoV-2病毒的武器投入使用,该病毒导致SAV--19病毒感染了至少275万人(经测试确认,该数字很可能更高) ),并在全球杀死了至少193,000人。
电晕系统是由企鹅计算公司建立的,该公司与劳伦斯·利弗莫尔国家实验室,洛斯阿拉莫斯国家实验室和桑迪亚国家实验室有着长期的合作关系。桑迪亚国家实验室是美国能源部的一部分,即所谓的三实验室。协调他们的超级计算机采购。最初于2018年安装的Corona机器具有164个计算节点,每个节点都配备有一对“ Naples” Epyc 7401处理器,这些处理器具有24个内核,每个内核以2 GHz的频率运行,并具有2.8 GHz的全内核Turbo Boost。组成该群集的Penguin Tundra Extreme服务器具有256 GB的主内存和1.6 TB的PCI-Express闪存。在2018年11月安装机器时,一半的节点配备了四个AMD的Radeon Instinct MI25 GPU加速器,其中每个都有16 GB的HBM2内存,并且具有768千兆字节的FP64性能,12.29 teraflop的FP32性能和24.6 teraflop的FP16性能。系统中的7872个CPU内核单独提供了FP64双精度的126 teraflops,Radeon Instinct MI25 GPU加速器又以FP64 double精度增加了251.9 teraflops。该机器的单精度性能显然要高得多,在CPU和GPU上均为4.28 petaflops。有趣的是,这台机器配备了Mellanox Technologies的200 Gb / sec HDR InfiniBand交换,这显然是这种交换速度的最早安装之一。系统中的872个CPU内核本身就以FP64双精度提供了126 teraflops,而Radeon Instinct MI25 GPU加速器又以FP64 double precision增加了251.9 teraflops。该机器的单精度性能显然要高得多,在CPU和GPU上均为4.28 petaflops。有趣的是,这台机器配备了Mellanox Technologies的200 Gb / sec HDR InfiniBand交换,这显然是这种交换速度的最早安装之一。系统中的872个CPU内核本身就以FP64双精度提供了126 teraflops,而Radeon Instinct MI25 GPU加速器又以FP64 double precision增加了251.9 teraflops。该机器的单精度性能显然要高得多,在CPU和GPU上均为4.28 petaflops。有趣的是,这台机器配备了Mellanox Technologies的200 Gb / sec HDR InfiniBand交换,这显然是这种交换速度的最早安装之一。
去年11月,就在爆发之前-至少我们认为那是在爆发之前,事实可能并非如此-AMD和Penguin达成了一项协议,安装了四个功能更强大的Radeon Instinct MI60 GPU加速器基于7纳米“ Vega” GPU,位于系统中尚没有GPU加速器的82个节点中。Radeon Instinct MI60具有32 GB的HBM2内存,并具有6.6 teraflops的FP64性能,13.3 teraflops的FP32性能和26.5 teraflops的FP16性能。现在,该机器具有8.9 petaflops的FP32性能和2.54 petaflops的FP64性能,这是更加平衡的64位到32位性能,它使这些节点对于某些种类的HPC和AI工作负载更加有用。