并行处理策略
并行处理策略决定了在大模型训练与推理中如何扩展吞吐与降低时延。核心策略包括 数据并行、张量并行 与 传递并行,常与混合精度、激活检查点、ZeRO 分片等技术组合使用。
1. 数据并行
- 思想:复制模型、分割数据批、聚合梯度;
- 难点:AllReduce 通信瓶颈;
- 技巧:梯度压缩、通信重叠、分桶与拓扑感知。
2. 张量并行
- 思想:在权重或激活维度切分大矩阵乘;
- 难点:跨设备通信频繁;
- 适配:超大模型、长序列与大批量场景。
3. 传递(流水线)并行
- 思想:按层划分阶段,通过 micro-batch 形成流水;
- 难点:bubble 与负载均衡;
- 组合:与数据/张量并行构成混合方案。
4. 工程实践
- ZeRO:状态分片降低显存峰值;
- 检查点:以计算换显存;
- 监控:通信利用率、吞吐/时延、收敛稳定性。
5. 资料
- Megatron-LM
- GPipe
- 名词卡:数据并行、张量并行、传递并行