改进的奖项决赛选手所展示的超级计算核物理代码
AndréWalker-Loud是能源部劳伦斯伯克利国家实验室(伯克利实验室)的一名科学家,是该团队的联合领导人,该团队是本月将获得的计算机协会戈登贝尔奖的六名决赛选手之一。。
Walker-Loud与DOE 劳伦斯利弗莫尔国家实验室(LLNL)的Pavlos Vranas一起领导的团队使用最新一代DOE超级计算机提高了计算中子寿命精确持续时间的能力,其中包括DOE's Oak的200-petaflop Summit超级计算机岭国家实验室(ORNL)和LLNL的125-petaflop Sierra超级计算机。
与之前在ORNL的27-petaflop Titan超级计算机上进行的科学测试相比,Walker-Loud的团队将这些模拟的科学应用加速了Sierra的10倍和Summit的15倍。
模拟可以帮助解开宇宙的神秘面纱
粒子物理学和核物理学之间存在一条细线,亚原子粒子夸克,胶子首先与质子和中子结合成原子核。
在这条线的一边是宇宙,因为它应该根据粒子物理学的标准模型:几乎没有物质,并且充满了来自物质和反物质的相互破坏的剩余辐射。在这条线的另一边是我们观察到的宇宙:时空以星系,太阳和行星的形式散布着物质。
为了理解物质和反物质之间的不对称性,科学家们正在使用大型超级计算机来寻找新的物理发现。通过称为晶格量子色动力学(QCD)的复杂数值方法,科学家们计算了夸克和胶子在时空晶格上的相互作用,以研究QCD基本物理理论中核的出现。通过桥接粒子相互作用和原子核的研究,格子QCD模拟也是学习宇宙如何运作的切入点。
今年早些时候,Walker-Loud的团队在奥克兰领导计算机构(OLCF)的Titan超级计算机上解决了与中子寿命相关的重要计算,该计算机是ORNL的DOE科学用户设施办公室。参加峰会,以及LLNL的超级计算机。研究人员计算了核子轴向耦合 - 质子和中子的基本性质 - 精度为1%(误差极小)。研究界已经预测到2020年之前这种精确度是不可能的,但是Walker-Loud的团队能够使用改进的物理算法将完成计算所需的统计量减少10倍。
LLNL的Pavlos Vranas说:“中子的寿命约为15分钟,这很重要,因为它对宇宙的质量成分产生了深远的影响。”
对于戈登贝尔奖提交,研究人员希望通过增加时空格子的大小并减少未来项目的不确定性来证明他们可以在Summit和Sierra上扩展这一成就。
在晶格QCD计算中增加晶格尺寸也是核物理学界的长期目标,因此研究人员可以直接从QCD中常规地模拟轻核(如氘或氦) - 这些问题比模拟更复杂,更具挑战性。中子寿命。
在Summit上,研究人员模拟了一个格子,每个空间方向有64个位点,时间有96个。每个站点与其他站点仅相隔0.09飞秒(飞秒表是1千万亿分之一米)。尽管模拟宇宙的总大小仅为5.6飞秒,但它足以研究中子的弱死亡并减少计算中的不确定性。Walker-Loud表示,这个格子是团队预计他们需要改进计算所需的最小格子,像Sierra和Summit这样的系统将能够使用更大的格子。
研究人员面临的最大挑战之一就是将他们的计算分成许多部分。
“我们的科学问题是一个统计问题,需要运行数千到数百万个小型工作,但这不是在大型超级计算机上部署工作的有效方式,”Walker-Loud说。
计算的整体效率是通过QUDA实现的,QUDA是针对GPU优化的QCD库,由KID Clark和NVIDIA的同事以及格子QCD研究社区开发。QUDA被集成到Chroma代码中,该代码由Jefferson Lab的BálintJoó和其他与USQCD合作开发的人员开发,用于为大型计算机开发晶格QCD计算。团队将自己的代码与这些优化的库一起包装成lalibe以连接Chroma。Lalibe的发展由LLNL的Arjun Gambhir领导。
Lattice QCD研究人员多年来一直在利用GPU,但Summit和Sierra通过将单个节点上的多个GPU与本地内存相连而不是将单个GPU与单个CPU配对来提高计算能力。
“节点上的GPU比节点到节点通信具有更快的通信带宽。我们在较少数量的节点上解决更大的问题,“Walker-Loud说。“根据这些Gordon Bell的运行情况,只需2周即可生成6 PB的数据。这对我们目前的生产模式来说无法管理。“
为了管理工作和数据的预期10倍增长因素,该团队已将其由Jülich研究中心的Evan Berkowitz开发的Bash经理METAQ升级为名为MPI_JM的C ++版本。MPI_JM的发展由加州大学伯克利分校的Ken McElvain领导。
METAQ和MPI_JM管理器都是系统批处理调度程序和应用程序作业脚本之间的中间层,使团队能够更有效地将数十万个任务捆绑到一个接一个运行的几百个作业中。
在具有超过4,000个节点的超级计算机上,在房间两侧的节点之间拆分作业会浪费宝贵的通信时间。MPI_JM库对节点进行排序,以最大化将任务放置在系统上相邻节点上的概率。
除了更有效地管理这些作业外,MPI_JM还允许用户将“仅CPU”任务放在与GPU密集型工作相同的计算节点上,而不会相互干扰任务。对于中子寿命的计算,这可以节省项目计算时间的10%到20%,因为以前只占CPU的任务占用了整个节点。对于将来更复杂的计算,节省的费用可能是两倍或更多。
该团队使用MPI_JM将4,224个节点扩展到Sierra的4,224个节点,使用METAQ在Summit上扩展到1,024个节点,在较大的Sierra运行中达到20 petaflops - 这种类型的晶格QCD计算的显着性能飞跃。该团队预计会扩展到Summit上的许多节点可以实现高达30 petaflops的性能。