传递并行(Pipeline Parallelism)

定义

  • 将模型按层或阶段进行切分,构建流水线;不同微批次在不同阶段并行前向/反向,提升整体吞吐。

关键概念

  • 微批(micro-batch):将全局 batch 切分,以填满流水线阶段。
  • bubble:流水线首尾阶段空转气泡导致效率损失;通过平衡分段计算量与增加微批数降低影响。
  • 同步:1F1B(Forward-Backward 交替)等调度降低激活保留内存。

优缺点

  • 优点:显存占用随阶段划分降低;在弱互联场景较 张量并行 更稳健。
  • 局限:调度复杂、阶段负载需均衡;跨阶段激活通信仍受 Nvlink参数PCIE参数 限制。

工程要点