张量并行(Tensor Parallelism)

定义

  • 将单个模型层的参数或激活在多个设备间切分(按维度或算子级别拆分),以并行完成大矩阵乘/注意力等计算。

常见形式

  • 列/行并行 Linear:将权重按列或按行分块,前后层设计需匹配以最小化通信。
  • 注意力并行:多头或 qkv 分片;结合序列并行可降低激活内存。
  • 运算符并行:对特定算子(如 FFT、稀疏注意力)按算法特性划分。

通信与拓扑

  • 前向/反向均涉及跨设备聚合/广播;对带宽/延迟高度敏感,建议使用 NVLink/同 NUMA 拓扑(参见 Nvlink参数PCIE参数)。

优缺点

  • 优点:可训练/推理超大模型(单卡放不下);计算—通信重叠后可获得较好扩展性。
  • 局限:实现复杂、跨层对齐要求高;跨节点网络受限时收益受折损。

工程要点