乔治亚理工学院推出新款芯片可更好地解决机器学习优化问题 | 广东省智能创新协会

发布日期:2019-05-25 10:00
乔治亚理工学院的49核人工智能芯片采用20世纪80年代的算法,比现今GPU能更快地解决目前最棘手的一些机器学习优化问题。



乔治亚理工学院的工程师表示他们已经提出了一种可编程原型芯片,可以有效地解决一大类优化问题,包括神经网络训练,5G网络路由和MRI图像重建所需的问题。该芯片的架构体现了一种特殊的算法,将一个巨大的问题分解为许多子问题,在子问题上运行并共享结果。它一遍又一遍地做到这一点,直到找到最佳答案。与运行算法的GPU相比,原型芯片OPTIMO的功率效率是4.77倍,速度是4.18倍。

机器学习系统的培训和各种其他数据密集型工作可以被视为一组称为约束优化的数学问题。乔治亚理工学院教授Arijit Raychowdhury解释说,在这种情况下,你试图在某些限制条件下尽量减少函数的价值。例如,训练神经网络可能涉及在神经网络大小的约束下寻求最低错误率。

“如果你能够使用智能架构和节能设计加速[约束优化],你将能够加速大量的信号处理和机器学习问题,”Raychowdhury说。20世纪80年代称为乘法器交替方向法(ADMM)的算法被证明是解决方案。该算法通过分解它们然后在几次迭代中达到解决方案来解决巨大的优化问题。

“如果你想用大量数据来解决一个大问题 - 比如100万个数据点和一百万个变量 - ADMM允许你把它分解成更小的子问题,”他说。“你可以将1000个数据点分解为1000个变量。”每个子问题都得到解决,结果与其他子问题“达成共识”步骤,以达到临时解决方案。利用现在包含在子问题中的该临时解决方案,该过程一遍又一遍地重复,直到算法到达最优解。

在典型的CPU或GPU中,ADMM是有限的,因为它需要移动大量数据。因此,Georgia Tech小组开发了一个具有“近内存”架构的系统。

“作为一种解决优化问题的方法,ADMM框架可以很好地映射到多核架构,在这种架构中,内存和逻辑与这些内核之间的某些通信通道非常接近,”Raychowdhury说。

测试芯片由49个“优化处理单元”网格组成,这些核心设计用于执行ADMM并包含自己的高带宽内存。这些单元以加速ADMM的方式相互连接。部分数据被分发到每个单元,并且它们着手解决各自的子问题。然后收集它们的结果,并将数据调整并重新发送给优化单元以执行下一次迭代。连接49个单元的网络专门用于加速这种聚集和分散过程。

佐治亚理工学院的团队,包括研究生Muya Chang和Justin Romberg教授于上个月在德克萨斯州奥斯汀举行的IEEE定制集成电路会议上公布了OPTIMO 。Raychowdhury表示,该芯片可以扩展到在云中完成其工作--增加更多核心或缩小以解决接近互联网边缘的问题。他开玩笑说,优化原型核心数量的主要限制因素是研究生的工作时间。