张量并行(Tensor Parallelism)
定义
- 将单个模型层的参数或激活在多个设备间切分(按维度或算子级别拆分),以并行完成大矩阵乘/注意力等计算。
常见形式
- 列/行并行 Linear:将权重按列或按行分块,前后层设计需匹配以最小化通信。
- 注意力并行:多头或 qkv 分片;结合序列并行可降低激活内存。
- 运算符并行:对特定算子(如 FFT、稀疏注意力)按算法特性划分。
通信与拓扑
优缺点
- 优点:可训练/推理超大模型(单卡放不下);计算—通信重叠后可获得较好扩展性。
- 局限:实现复杂、跨层对齐要求高;跨节点网络受限时收益受折损。
工程要点
- 与 数据并行、传递并行 混合;激活检查点减少显存;合理的 LayerNorm/残差放置以降低跨卡依赖。
- 序列/流水线并行配合以平衡显存与吞吐;与 ZeRO微调神经网络训练 结合进行状态分片。