VoltIQ Docs

❯

05 高性能计算硬件与并行处理

❯

GPU互联与接口

GPU互联与接口

Sep 07, 20252 min read

GPU 互联与接口

多卡系统的通信带宽与拓扑结构直接决定分布式训练/推理的上限。本节对 Nvlink参数与 PCIE参数的关键差异与组合拓扑进行简明梳理，帮助在预算约束下进行合理选型。

1. 接口对比

PCIe：通用总线，易于扩展；代际带宽提升（PCIe 3.0→5.0）；
NVLink：GPU-GPU 高带宽直连，延迟更低，常与 NVSwitch 组成全互联；
带宽与拓扑：Star、Ring、Mesh、Fully-Connected 的通信特性差异显著。

2. 训练影响

数据并行：AllReduce 带宽瓶颈明显；
张量并行：前向/反向跨设备通信频繁，对带宽/延迟更敏感；
传递并行：阶段间激活传递与 bubble；
ZeRO/分片：通信-显存-计算三者权衡。

3. 工程建议

优先 NVLink/NVSwitch 拓扑获取稳定缩放；
跨节点需高性能互联（IB/RoCE）；
合理设置梯度聚合与桶大小；
监控通信利用率与重叠策略。

4. 链接

NVIDIA NVLink: https://developer.nvidia.com/nvlink
PCI-SIG: https://pcisig.com/
名词卡：Nvlink参数、PCIE参数

链接

Index
GPU显卡概述
并行处理策略
计算模式

Graph View

GPU 互联与接口
1. 接口对比
2. 训练影响
3. 工程建议
4. 链接
链接

Backlinks

GPU显卡概述
数据并行
并行处理策略
计算模式
Welcome

Created with Quartz v4.5.1 © 2025