Nvidia Chip将智能技术——深度学习推向了极致 | 广东省智能创新协会

发布日期:2019-07-08 10:00
Nvidia单个实验加速器芯片可以在一个模块中组合在一起,以解决小型工作和大型工作,而不会牺牲效率。



毫无疑问,GPU-powerhouse Nvidia希望能够为各种规模的人工智能提供解决方案--从大规模的数据中心工作到始终在线的低功耗神经网络,这些网络可以监听语音助理中的唤醒字。

现在,这需要几种不同的技术,因为它们都没有特别好地扩大或缩小。能够部署一种技术而不是几种技术显然更为可取。因此,根据Nvidia首席科学家Bill Dally的说法,该公司一直在寻求这个问题的答案:“你能构建一些可扩展的东西,同时在整个频谱范围内保持每瓦特竞争性能吗?” 

看起来答案是肯定的。上个月在京都举行的VLSI研讨会上,Nvidia详细介绍了一款小巧的测试芯片,它可以独立完成低端工作,或者在一个模块中与多达36个亲属紧密联系,以进行深度学习。它实现了这一切,同时实现了大致相同的顶级性能。

单个加速器芯片设计用于执行深度学习的执行者而不是训练部分。工程师通常根据每焦耳能量或毫米面积可以进行多少次操作来测量这种“推理”芯片的性能。Nvidia原型芯片中的一个峰值达到每秒4.01万次操作(每秒1000亿次操作)和每毫米1.29 TOPS。与使用相同精度的其他组的先前原型相比,单个芯片的面积效率至少为16倍,能量效率为1.7倍。但是连接到一个36芯片系统它达到了127.8 TOPS。这是一个32倍的性能提升。

公司主要是调整他们的技术,以便最适合他们的特定利基。例如,加利福尼亚州Irvine启动Syntiant 在闪存中使用模拟处理来提高极低功耗,低需求应用的性能。虽然谷歌最初的张量处理单元的功能将被浪费在除数据中心的高性能,高功率环境之外的任何其他方面。

通过这项研究,Nvidia试图证明一种技术在所有这些情况下都能很好地运行。或者至少它可以在芯片与多芯片模块中的Nvidia网状网络连接在一起。这些模块基本上是小型印刷电路板或硅片,它们可以作为一个大型IC处理多个芯片。


Nvidia的多芯片模块

“多芯片模块选项不仅具有很多优势,同时适用于未来可扩展的深度学习加速器,还适用于构建具有不同功能的加速器产品版本。”Dally解释道。

Nvidia多芯片模块将新的深度学习芯片绑定在一起的关键是使用称为地参考信号技术的芯片间网络。顾名思义,GRS使用导线上的电压信号和公共地之间的差异来传输数据,同时避免了该方法的许多已知缺陷。它可以使用单根线传输25千兆位/秒,而大多数技术需要一对电线才能达到该速度。使用单线可以提高每秒毫米边缘流量的数据量,达到每秒高达几兆兆位的数据量,更重要的是GRS的功耗仅为每比特微焦耳。

“这是我们开发的一种技术,基本上可以选择在有机基板上构建多芯片模块,而不是采用更加昂贵的硅插入器。”Dally说。

在VLSI展出的加速器芯片并不是Nvidia关于人工智能的最新成果。Dally表示,他们已经完成了一个新版本,该芯片的TOPS / W基本上可以翻倍。“我们相信我们可以做得更好,”他说。他的团队渴望找到新的加速技术,超越VLSI原型的9.09 TOPS / W并达到200 TOPS / W,同时仍然可实现扩展。