GPU 互联与接口
多卡系统的通信带宽与拓扑结构直接决定分布式训练/推理的上限。本节对 Nvlink参数 与 PCIE参数 的关键差异与组合拓扑进行简明梳理,帮助在预算约束下进行合理选型。
1. 接口对比
- PCIe:通用总线,易于扩展;代际带宽提升(PCIe 3.0→5.0);
- NVLink:GPU-GPU 高带宽直连,延迟更低,常与 NVSwitch 组成全互联;
- 带宽与拓扑:Star、Ring、Mesh、Fully-Connected 的通信特性差异显著。
2. 训练影响
3. 工程建议
- 优先 NVLink/NVSwitch 拓扑获取稳定缩放;
- 跨节点需高性能互联(IB/RoCE);
- 合理设置梯度聚合与桶大小;
- 监控通信利用率与重叠策略。
4. 链接
- NVIDIA NVLink: https://developer.nvidia.com/nvlink
- PCI-SIG: https://pcisig.com/
- 名词卡:Nvlink参数、PCIE参数