节点规模对训练效率的影响
纯粹提升效劳器节点规模,集群盘算效率反而下降
带宽对训练效率的影响
效劳器集群的通讯带宽已成为提升漫衍式训练效率的瓶颈
动态时延对训练效率的影响
网络拥塞导致动态时延高,降低GPU使用率,训练时间延伸
丢包率关于训练效率的影响
RDMA丢包重传导致带宽使用率快速降低,丢包率抵达1%,严重影响训练效率