阿里公开自研AI集群细节：64个GPU，百万分类训练速度提升4倍_极客社区

adsd

2020-03-08

阿里公开自研AI集群细节：64个GPU，百万分类训练速度提升4倍

It doesn't matter how slow you are, as long as you're determined to get there, you'll get there.不管你有多慢，都不要紧，只要你有决心，你最终都会到达想去的地方。忘了从什么时候，我们开始不断转发别人的微博。从节点架构到网络架构，再到通信算法，阿里巴巴把自研的高性能AI集群技术细节写成了论文，并对外公布。具体来说，服务器架构问题，主要是资源配置不平衡导致的拥塞问题，以及PCIe链路的QoS问题。此外，PCIe链路上的带宽分配与路径长度密切相关，长路径获得的带宽分配较低，而跨Socket通信的问题更加严重。均分带宽意味着事务完成时间的成倍提升，会严重影响AI通信的性能。为了评估EFlops系统的性能，他们部署了16个节点，共计64个GPU的训练集群。其中每个节点配置了4个Tesla

科技圈

查看

安科网

adsd