Graphcore推出了其第二代智能处理单元Colossus Mark 2
Graphcore的Mark 1设备于2018年发布。Mark 2已从TSMC 16nm迁移到TSMC 7nm,并通过1472个独立处理器内核实现了250 TFlops。新芯片的RAM容量是前一个版本的300MB的三倍,即片上900MB。Graphcore的性能与Mark 1的整体性能相比大约提高了8倍;与8倍的IPU Mark 1s相比,8倍的Mark 2s可以更快地执行BERT训练9.3倍,BERT-3Layer推理速度快8.5倍,EfficientNet-B3训练速度快7.4倍。
IPU机器(部件号M2000)是一个1U服务器刀片,上面装有四个Colossus Mark 2芯片,可提供FP16精度的Petaflop AI计算。
Graphcore首席执行官Nigel Toon表示:“这确实是Graphcore自成立以来一直在努力的产品,并且一直希望生产。”
“创新不仅仅是从台积电(TSMC)16nm到7nm,还有其他创新,例如片上RoCE和新的AI编号格式,以及更多其他创新。它使Graphcore领先于Nvidia的最新Ampere,因此对Graphcore而言是重要的时机。” Kiasco Research首席分析师Michael Azoff说道。
Toon进行了并排比较,显示了Graphcore在与Nvidia的DGX-A100系统相似的价位上提供的产品。几个月前推出的DGX-A100配备了八个最新的7nm Ampere A100 GPU。类似的预算将为您购买八台IPU机器(总共24个IPU芯片),与DGX-A100的6U相比占据8U。但是Graphcore的数据显示其系统提供的FP32(AI训练)计算能力是12倍,而FP16计算能力是3倍。它还将提供10倍的内存,从而支持更大的型号。总体而言,Graphcore相信在培训EfficientNet时,这种系统将提供16倍的性能优势。
“(这将意味着)降低成本,减少能耗或加快培训速度,无论哪种参数对客户来说都是最重要的,” Toon说。