AI Startup Cerebras开发出世界上最强大的处理器
随着众多半导体初创公司,半导体公司,大学,政府机构,甚至设备和系统OEM厂商致力于人工智能芯片(AI),很难脱颖而出。然而,一家名为Cerebras的初创企业已经成功实现了这一目标。昨天在斯坦福大学举行的Hot Chips会议上,Cerebras推出了一种独特的AI深度学习解决方案,这是一项工程奇迹。
有很多东西使Cerebras解决方案独一无二,很难知道从哪里开始。Cerebras克服了许多设计,制造和封装挑战,开发了一种名为晶圆级引擎(WSE)的晶圆级解决方案。这意味着该设计将硅晶片的整个可用空间用作单个芯片或平台。大多数芯片是通过在一个晶圆上放置10个或100个芯片实例然后将晶圆切割成单个芯片而制成的。已经尝试将整个晶片用作单个芯片用于其他应用,但是通常放弃了成本和产量问题。单个300毫米晶圆的生产成本可达数千美元。然而,处理中最小的灰尘或不完整的斑点可能导致芯片的一部分失效并且通常导致整个芯片的故障。制造整个晶圆没有错误是不可能的,但Cerebras找到了解决方法。Cerebras WSE由84个处理区块组成,类似于单个芯片,每个区块都有冗余处理器内核,内存和I / O. 当瓷砖的一部分出现故障时,额外的功能将通过软件工具代替它们,使其看起来像一个功能齐全的瓷砖。因此,该公司理论上可以在晶圆上生产所有瓷砖100%的产量,并生产所有晶圆。使它看起来像一个功能齐全的瓷砖。因此,该公司理论上可以在晶圆上生产所有瓷砖100%的产量,并生产所有晶圆。使它看起来像一个功能齐全的瓷砖。因此,该公司理论上可以在晶圆上生产所有瓷砖100%的产量,并生产所有晶圆。
然而,制造只是等式的一部分。另一个问题是为整个晶圆级解决方案提供电源和冷却的挑战。WSE具有400,000个可编程处理器内核,18 GB内存和片上结构,能够达到25 petabits,包含1.2万亿个晶体管,46,225 mm 2的硅片空间(相比之下,它比AI的最大GPU大56倍),这是815mm 2)。此外,WSE的额定功率高达15kW。如果你在谈论家用电池系统,太阳能电池阵列或电动汽车,讨论千瓦(kW)将是正常的,但对于单个芯片,这比任何芯片产生的都要多一个数量级。这需要在设备操作,板/基板设计和冷却系统方面进行创新,以便处理那么多的功率和随后的热量。
让我们分别看看这些创新中的每一个。
第一项创新是WSE的运作。使用如此大的芯片阵列,在芯片上发送数据和指令的功率和延迟都是低效的。结果,用于开发神经网络的软件工具聚集在一起将处理瓦片组合成簇,然后在单个路径中通过芯片路由数据。该路径看起来像一个随机迷宫,但它经过优化,可以使用整个芯片,同时实现最低延迟。
第二项创新是处理电源要求的基板设计。与其他基于插槽的处理器不同,您不能拥有一个甚至几个电源连接器,因为就像路由数据一样,在大型芯片上布线功率效率低,并且可能通过创建热点而造成损坏。必须将功率均匀地施加到晶片上的每个处理瓦片。Cerebras通过特殊的基板而不是基板上的布线图案向每个瓦片施加功率来实现这一点。可以将其视为每个处理器磁贴都有单独的电源引脚。
第三项创新是冷却。整个15kW芯片必须冷却,液体冷却是唯一可行的选择。但是,如果在芯片上放置水或其他冷却剂,则流到达芯片的另一侧时会变热,可能会损坏芯片。Cerebras通过具有多个区域的冷却解决方案克服了这一挑战,每个区域都有自己的输入和输出水端口。因此,它没有一个散热器,而是有多个散热器冷却芯片。
除了这些工程创新之外,该公司还开发了针对AI处理优化的新型可编程稀疏线性代数核(SLAC)。SLAC跳过任何乘以零的函数,这可以显着加速深度学习过程中矩阵的乘法,同时降低功耗。该公司还通过消除缓存并在处理核心附近放置大量高速内存(18 GB SRAM)来减少内存堆栈。所有这一切都与公司所谓的Swarm通信结构相关联,Swarm通信结构是一种带有25个带宽的2D网状结构,设计用于处理器内核和磁贴之间,包括通常在晶圆上的模切区域。
所有这些创新都需要在底盘中实施,这是Cerebras目前没有讨论的。但是,该公司确实表示将在今年年底之前提供更多信息。请注意,Cerebras解决方案专为AI处理而设计。因此,WSE将需要连接到主处理器或处理器。但结果仍然是单个服务器,其中有数千个AI加速器都装在一个芯片中。虽然软件细节有限,但该公司确实表明WSE确实支持TensorFlow和其他流行的软件框架。
由于其设计,Cerebras WSE平台在延迟,带宽,处理效率和尺寸方面具有优势。据Cerebras时,WSE比最大的GPU大56.7倍,拥有3000倍以上的片上存储器,拥有10000倍的内存带宽,并嵌入1/50 个传统的数据中心配置的数以千计的空间服务器节点。该公司尚未讨论平台的可用性或估计的成本。
将Cerebras与背包分开的其他一点是公司专注于深度学习培训。有两种形式的AI处理。一个是人工神经网络的培训,它通过各种深度学习技术和软件框架来完成。AI处理的另一种形式是推理,其使用训练的神经网络来做出决定或决定。大多数公司都专注于推理处理,因为它将占绝大多数AI处理。许多新的AI参赛者声称要同时做这两件事。虽然可以进行培训和推理,但需要权衡性能和效率。最有效的解决方案通常针对一个或另一个。
像许多半导体初创企业一样,Cerebras拥有许多系列企业家和行业专家,他们知道如何取得成功。然而,该公司选择了与同行完全不同的技术路线。正如Tirias Research之前指出的那样,我们认为AI在不同平台上有足够的空间,因为没有两个工作负载是相同的。我们赞扬Cerebras正在采取的大胆设计风险,以推动技术超出我们认为的极限。Cerebras解决方案是独一无二的,似乎非常适合训练非常大的数据集。但是,必须考虑成本和数据中心资源,尤其是电力。在目前的平台上,只有最大的互联网公司,云服务提供商和企业客户才有可能成为潜在客户。
在我们讨论影响人工智能发展的公司,技术和应用时,请继续在我们对人工智能的持续报道中寻找更多来自蒂里亚研究的信息。