传递并行(Pipeline Parallelism)
定义
- 将模型按层或阶段进行切分,构建流水线;不同微批次在不同阶段并行前向/反向,提升整体吞吐。
关键概念
- 微批(micro-batch):将全局 batch 切分,以填满流水线阶段。
- bubble:流水线首尾阶段空转气泡导致效率损失;通过平衡分段计算量与增加微批数降低影响。
- 同步:1F1B(Forward-Backward 交替)等调度降低激活保留内存。
优缺点
工程要点
- 阶段划分:尽量等时长;注意残差、跨层依赖。
- 与 数据并行、张量并行、ZeRO微调神经网络训练 组合为混合并行;配合激活检查点与梯度累积。