人工智能的两个基本要素是训练和推理
许多人已经观察到,我们正处于下一次工业革命的曙光:人工智能(AI)革命。这场智能革命带来的好处将是很多的:在医学,改进的诊断和精确治疗,更好的天气预报以及自动驾驶汽车等方面。但是,这场革命的成本之一将是为它供电的数据中心增加电力消耗。数据中心的电力使用量预计将在未来10年内翻一番,并有望在2030年之前消耗全球11%的电力。除了采用AI外,这一趋势的其他驱动因素还包括向云的迁移以及CPU,GPU的电力使用量的增加。和其他服务器组件,它们变得越来越强大和智能。
人工智能的两个基本要素,即训练和推理,各自消耗的能量不同。训练涉及对非常大的数据集进行计算密集型矩阵运算,这些数据集通常以TB到PB为单位。这些数据集的示例范围从在线销售数据到捕获的视频提要,再到肿瘤的超高分辨率图像。从本质上讲,AI推理在计算上要轻得多,但是可以无限期地作为服务运行,当遇到大量请求时,它会消耗大量能量。考虑一下用于办公楼安全性的面部识别应用程序。它会连续运行,但会在人们上班和上班时在8:00 am和5:00 pm再次占用计算和存储资源。
但是,很难掌握AI中的功耗。能耗不是作业计划程序跟踪的标准指标的一部分,虽然可以设置,但它很复杂且依赖于供应商。这意味着,大多数用户在能源使用方面都是“盲目”。
为了制定AI能源需求,Miro Hodak博士领导了一个由Lenovo工程师和研究人员组成的团队,研究了经常使用的AI工作负载的能源成本。数据中心硬件深度学习中的功率效率研究,(需要注册)最近在2019 IEEE国际大数据会议上发表,并在会议记录中发表。这项工作着眼于在配备4个Nvidia V100 GPU的Lenovo ThinkSystem SR670服务器上使用ImageNet数据集(包含130万张图像)训练ResNet50神经网络的能源成本。服务器电源的AC数据表明,完全训练此AI模型需要6.3 kWh的能量,足以为一个普通家庭供电6个小时。在实践中,类似的训练会重复多次以调整生成的模型,从而导致能源成本实际上高出几倍。
该研究将总能量分解成其各个分量,如图1所示。正如预期的那样,GPU消耗了大部分能量。但是,考虑到GPU可以处理所有计算密集型部分,因此65%的能量份额低于预期。这表明仅使用GPU功率对AI能源成本的简单估算是不准确的,并且错过了系统其余部分的重大贡献。除GPU外,CPU和内存占能源使用量的近四分之一,而9%的能量用于交流到直流电源转换(这在SR670 PSU的80 PLUS白金认证范围内)。