首款可编程忆阻器人工智能计算芯片带来计算效率的巨大提升 | 智能技术

发布日期:2019-08-18 10:00
近日,密歇根州团队在标准CMOS逻辑上成功构建忆阻器,以构建可以执行各种边缘计算的人工智能任务系统。



希望加快人工智能和神经形态计算速度以及降低功耗,初创公司、科学家和成熟的芯片公司都在寻求在内存中而不是在处理器的计算核心中进行更多的计算。忆阻器和其他非易失性存储器似乎特别适合这项任务。然而,大多数内存计算的演示都是在独立的加速器芯片中,这些加速器芯片是针对特定类型的AI问题构建的,或者需要单独处理器的片外资源才能运行。密歇根大学的工程师们声称第一台基于忆阻器的人工智能可编程计算机可以独立工作。

“记忆确实是瓶颈。”密歇根大学教授魏璐说。“机器学习模型越来越大,而且我们没有足够的片上存储器来存储权重。”从芯片上获取数据,到DRAM,可能需要100倍的计算时间和精力。他说,即使你确实拥有存储在片上存储器中的所有东西,将它来回移动到计算核心也需要花费太多时间和精力。相反,你在记忆中进行计算却十分快捷。”

他的实验室一直在使用忆阻器(也称为电阻式RAM或RRAM),它将数据存储为阻力十多年,并且已经证明了它们有效执行AI计算(如乘法和累加运算)的潜力的机制处于深度学习的核心。忆阻器阵列可以有效地完成这些任务,因为它们变成模拟计算而不是数字计算。

新芯片将5,832个忆阻器阵列与OpenRISC处理器相结合。486个专门设计的数模转换器,162个模数转换器和两个混合信号接口充当忆阻器模拟计算和主处理器之间的转换器。“所有功能都是在芯片上实现的。”IEEE研究员表示。

在最高频率下,芯片功耗仅为300毫瓦,同时每瓦每秒执行1880亿次操作(GOPS / W)。这与Nvidia的最新研究人工智能加速器芯片(每秒每秒9.09万亿次操作(TOPS / W))相比并不算好,尽管没有考虑从DRAM传输数据的能源成本和延迟。但是研究人员指出CMOS部分是使用20年前的180纳米半导体制造工艺制造的。将其转移到更新的工艺,例如2008年代的40纳米技术,将功耗降至42 mW,并将性能提升至1.37 TOPS / W,而无需从DRAM传输数据。Nvidia的芯片采用2014年推出的16纳米工艺制造而成。


密歇根大学的Wei Lu和电气工程博士生Seung Hwan Lee合作建造了一个可编程的忆阻器阵列

Wei Lu的团队通过三次测试来证明其可编程性和处理各种机器学习任务的能力。最直接的一种称为感知器,用于对信息进行分类。对于这项任务,忆阻器计算机必须识别希腊字母,即使它们的图像是嘈杂的。

第二个也是更困难的任务是稀疏编码问题。在稀疏编码中,您正在尝试构建最有效的人工神经元网络,以完成工作。这意味着,当网络学习其任务时,它会让神经元相互竞争网络中的某个位置。失败者被切除,留下一个更像大脑的高效神经网络,只有绝对需要的连接。研究人员在2017年在较小的阵列上演示了基于忆阻器的稀疏编码。

最后的任务是一个双层神经网络,能够进行所谓的无监督学习。该芯片并不是使用一组标记图像进行学习,而是通过大量的乳房X射线照片进行测试。神经网络首先确定了分数组合的重要特征,然后将良性肿瘤与恶性肿瘤区别开来,准确率为94.6%。

Wei Lu表示将于明年完成芯片的下一个版本,它将拥有更快、更高效的CMOS和多个忆阻器阵列。“我们将使用多个阵列来表明你可以将它们联系在一起形成更大的网络。”他说。

Wei Lu已经成立了一家名为MemryX的创业公司,旨在将该芯片商业化。他之前的RRAM初创公司Crossbar也在发展AI领域。去年,Crossbar 与航空航天芯片制造商Microsemi达成协议,并研发了一款可以进行人脸识别并阅读车牌的芯片。