国家实验室首次安装了AI超级计算机 | 智能技术

发布日期:2019-12-08 10:00
Cerebras在Argonne国家实验室首次安装了人工智能超级计算机。Argonne将使用CS-1帮助发现癌症疗法并了解碰撞的黑洞。


图片:大脑系统

Cerebras Systems CS-1的高度为67厘米,其性能是Google TPU2系统的三倍,后者占用的空间是后者的29倍。

在科罗拉多州丹佛市举行的Supercomputing 2019大会上,Cerebras Systems推出了由全球最大芯片驱动的计算机。Cerebras表示,CS-1计算机具有相当于数百个机架的价值数百千瓦的基于GPU的计算机的等同的机器学习功能,消耗数百千瓦,但它仅占标准机架的三分之一,功耗约为17 kW。预计将成为美国第一台百亿级超级计算机的未来家园的阿贡国家实验室(Argonne National Labs)说,它已经部署了CS-1。Argonne是美国国家实验室(Cerebras)宣布的两个美国客户之一,另外一个是劳伦斯·利弗莫尔国家实验室(Lawrence Livermore National Laboratory)。
首席执行官兼联合创始人安德鲁·费尔德曼(Andrew Feldman)说,该系统“是最快的AI计算机”。他与谷歌的TPU簇(2相比它ND  三代的该公司的AI计算机),并指出,那些“需要10个机架和超过100千瓦到递送第三单[CS-1]盒的性能的。”
CS-1旨在加快新型和大型神经网络的训练速度,该过程可能需要数周或更长时间。由一个400,000核,1万亿晶体管晶圆级处理器芯片提供动力,CS-1可以将这项任务缩减至几分钟甚至几秒钟。但是,Cerebras没有提供根据标准AI基准(例如新的MLPerf标准)显示此性能的数据。相反,它一直通过让他们在Cerebras的机器上训练自己的神经网络模型来吸引潜在客户。
分析师认为,这种方法并不罕见。Moor Insights&Strategies的AI分析师Karl Freund说:“每个人都运行着为自己的业务开发的模型。” “那是唯一对买家重要的事情。”


图片:大脑系统

CS-1的爆裂表明,大多数系统都致力于为左后方的晶圆级引擎芯片供电和冷却。

Cerebras还公布了系统软件方面的一些细节。该软件允许用户使用PytorchTensorflow等标准框架编写其机器学习模型。然后,开始着手将晶圆级引擎的各种尺寸的部分专用于神经网络的各个层。它是如何做到的?通过解决优化问题,以确保所有层以大致相同的速度完成其工作,并且与相邻层相邻。结果:信息可以毫无阻碍地流经网络。
该软件可以在多台计算机上执行该优化问题,从而使一台计算机集群可以充当一台大型计算机。Cerebras已将多达32台CS-1连接在一起,从而使性能提高了大约32倍。Feldman说,这与基于GPU的群集的行为形成对比。“如今,当您对GPU进行群集时,您不会遇到一台大型计算机的行为。您会得到许多小型计算机的行为。”
Argonne的计算主管Rick Stevens在一份新闻稿中说,阿尔贡已经与Cerebras合作了两年。“通过部署CS-1,我们大大缩短了整个神经网络的培训时间,使我们的研究人员能够大大提高工作效率,从而在癌症,颅脑外伤以及对当今和当今社会至关重要的其他领域的深度学习研究中取得长足进步未来的几年。”
作为美国能源部和美国国家癌症研究所合作的一部分,CS-1的第一个应用是预测癌症的药物反应。它也被用来帮助理解碰撞的黑洞的行为及其产生的引力波。该问题的先前实例需要Theta超级计算机的4392个节点中的1024个。