会员动态 | 论软件定义GPU对AI数据中心优化的必要性+ 查看更多
会员动态 | 论软件定义GPU对AI数据中心优化的必要性
+ 查看更多
发布日期:2022-06-16 10:25
摘要:
AI数据中心的痛点
解决痛点的方向——GPU池化技术
彻底解决这一痛点的方法需要借鉴软件定义存储解决存储问题、软件定义网络解决网络问题、用软件定义算力来解决GPU问题。采用软件定义算力理念的GPU池化技术,站在整个数据中心的高度,以GPU虚拟化为基础,突破了传统GPU虚拟化技术只能支持GPU共享的限制,融合了GPU共享、聚合和远程使用等多种硬核能力,打造全能型软件定义GPU。
趋动科技的OrionX 产品是世界范围领先的数据中心级GPU池化软件,关注深度学习服务在企业内的全链条优化,通过先进的技术解决客户的实际痛点。

OrionX并非一个传统的GPU虚拟化软件。传统的GPU虚拟化只支持本地GPU共享,而OrionX可以把GPU当作像分布式存储那样作为全局统一运维、管理和使用的抽象资源,其能力是传统GPU虚拟化的超集,支持GPU共享、聚合和远程使用等多项硬核技术。 OrionX把物理GPU资源抽象成可以通过网络在数据中心内任意服务器都可以直接使用的通用资源,对软件保持近似于物理GPU的兼容性,支持常用的深度学习框架(TensorFlow, PyTorch,PaddlePaddle等),支持深度学习的训练/推理/未来更多计算模式,支持追求极致性能的手写CUDA代码的应用,可以充分利用成熟的深度学习的生态和社区力量。 OrionX支持开发、测试、生产各个环节,可以隔离,可以混合部署,保持统一使用模式,并且支持不同环节的不同优化策略。 OrionX支持本地共享/远程共享、本地独占/远程独占、跨物理节点多合一各种灵活的用法,支持动态配置资源,每一种功能都有实际对应的使用场景。 OrionX GPU资源池内的GPU算力即取即用,对其他上层软件保持资源管理的透明性,做到资源的有效利用。 OrionX对如何提供虚拟GPU,哪些底层细节需要隐藏,哪些真实参数需要暴露都有科学的考虑和设计,并留有丰富的接口和配置,允许平台层甚至应用层做定制化和优化,甚至二次开发,例如任务的排队、优先级的定义、亲和性等,甚至深度学习框架本身都可以利用OrionX GPU资源池提供的能力去做非常有用的优化。
OrionX GPU池化软件的效率
训练任务

推理任务

总结
AI无疑是一个火热的词汇,但是放在整个计算机领域,应用的重要性不改变其技术的本质,其从硬件到软件的设计思路并没有什么特殊的地方,没有哪个设计思路是计算机发展史上的新鲜事。经历行业长期实践经验,数据中心云化是大势所趋。一个应用要上云,不是让云来适应应用,而是应用必须要适应云,否则只能被更适应云的竞争者所替代。GPU池化软件把物理GPU抽象成类似于分布式存储的,可以通过网络在数据中心内全局统一运维和管理、任意使用的抽象资源,是AI业务上云的必然选择。今天认为GPU池化软件会引入性能损失,不适合于深度学习的看法,和当年认为软件定义存储性能不如硬件存储,不适合重要应用的看法一样,有着相似的片面性。深度学习能够,也应该拥抱GPU池化技术,二者互相配合,为用户提供更好的,更适合云的解决方案。
谈到应用和云,就不得不提“云原生”。这是另外一个有意思的话题。感兴趣请关注我们下一期的技术分享。
Characterizing Deep LearningTraining Workloads on Alibaba-PAI,2019 IEEE International Symposium on Workload Characterization(IISWC)