模型训练策略

训练策略是数据、资源与目标的多维权衡:在既定显存/算力与上线时限下,选择能最大化收益的学习路径。核心策略包括全量训练与微调、连续学习、多任务/多域训练与自监督预训练等,它们与并行方案、调度器、正则化共同决定了速度与上限。

1. 全量训练 vs 微调

  • 全量训练(全量神经网络训练):自由度最高但成本昂贵;适合新领域/新模态。
  • 微调:以预训练模型为底座,少量数据即可适配新任务;
    • Full fine-tune:更新全部参数,效果上限高;
    • PEFT:Adapter、Prefix/Prompt Tuning、BitFit、LoRA微调神经网络训练;参数/显存友好。
  • ZeRO 优化:状态分片降低显存峰值,便于大模型训练(参见 ZeRO微调神经网络训练)。

2. 连续学习与域自适应

  • 灾难性遗忘:重放、约束正则、可塑性-稳定性权衡;
  • 域自适应:对抗训练/特征对齐,减少域偏移;
  • 数据治理:时间窗抽样与评估基线保持可比性。

3. 多任务与指令微调

  • 多任务:共享底座、任务头分离;迁移与正迁移/负迁移诊断;
  • 指令微调(指令微调):统一自然语言接口,提升遵循与泛化;
  • 自监督 + 指令:先表征后对齐,结合 RLHF/RLAIF 等策略。

4. 并行与系统优化

  • 数据并行/张量并行/传递并行:按模型规模、序列长度与拓扑综合选择;
  • 混合精度、激活检查点、梯度累积与显存优化;
  • 数据管线与 IO:prefetch、pin memory、异步数据加载。

5. 评估与上线

  • 超参搜索:网格/随机/贝叶斯/多保真优化;
  • 早停:防止过拟合并节约资源;
  • 灰度与回放:降低线上回归风险,监控退化与触发回滚。

6. 资料

链接