节点规模对训练效率的影响
单纯提升服务器节点规模,集群计算效率反而下降
带宽对训练效率的影响
服务器集群的通信带宽已成为提升分布式训练效率的瓶颈
动态时延对训练效率的影响
网络拥塞导致动态时延高,降低GPU利用率,训练时间延长
丢包率对于训练效率的影响
RDMA丢包重传导致带宽利用率快速降低,丢包率达到1%,严重影响训练效率