GPU 互联与接口

多卡系统的通信带宽与拓扑结构直接决定分布式训练/推理的上限。本节对 Nvlink参数PCIE参数 的关键差异与组合拓扑进行简明梳理,帮助在预算约束下进行合理选型。

1. 接口对比

  • PCIe:通用总线,易于扩展;代际带宽提升(PCIe 3.0→5.0);
  • NVLink:GPU-GPU 高带宽直连,延迟更低,常与 NVSwitch 组成全互联;
  • 带宽与拓扑:Star、Ring、Mesh、Fully-Connected 的通信特性差异显著。

2. 训练影响

  • 数据并行:AllReduce 带宽瓶颈明显;
  • 张量并行:前向/反向跨设备通信频繁,对带宽/延迟更敏感;
  • 传递并行:阶段间激活传递与 bubble;
  • ZeRO/分片:通信-显存-计算三者权衡。

3. 工程建议

  • 优先 NVLink/NVSwitch 拓扑获取稳定缩放;
  • 跨节点需高性能互联(IB/RoCE);
  • 合理设置梯度聚合与桶大小;
  • 监控通信利用率与重叠策略。

4. 链接

链接