阿里公开自研AI集群细节:64个GPU,百万分类训练速度提升4倍
It doesn't matter how slow you are, as long as you're determined to get there, you'll get there.不管你有多慢,都不要紧,只要你有决心,你最终都会到达想去的地方。忘了从什么时候,我们开始不断转发别人的微博。从节点架构到网络架构,再到通信算法,阿里巴巴把自研的高性能AI集群技术细节写成了论文,并对外公布。具体来说,服务器架构问题,主要是资源配置不平衡导致的拥塞问题,以及PCIe链路的QoS问题。此外,PCIe链路上的带宽分配与路径长度密切相关,长路径获得的带宽分配较低,而跨Socket通信的问题更加严重。均分带宽意味着事务完成时间的成倍提升,会严重影响AI通信的性能。为了评估EFlops系统的性能,他们部署了16个节点,共计64个GPU的训练集群。其中每个节点配置了4个Tesla