模型训练策略
训练策略是数据、资源与目标的多维权衡:在既定显存/算力与上线时限下,选择能最大化收益的学习路径。核心策略包括全量训练与微调、连续学习、多任务/多域训练与自监督预训练等,它们与并行方案、调度器、正则化共同决定了速度与上限。
1. 全量训练 vs 微调
- 全量训练(全量神经网络训练):自由度最高但成本昂贵;适合新领域/新模态。
- 微调:以预训练模型为底座,少量数据即可适配新任务;
- Full fine-tune:更新全部参数,效果上限高;
- PEFT:Adapter、Prefix/Prompt Tuning、BitFit、LoRA微调神经网络训练;参数/显存友好。
- ZeRO 优化:状态分片降低显存峰值,便于大模型训练(参见 ZeRO微调神经网络训练)。
2. 连续学习与域自适应
- 灾难性遗忘:重放、约束正则、可塑性-稳定性权衡;
- 域自适应:对抗训练/特征对齐,减少域偏移;
- 数据治理:时间窗抽样与评估基线保持可比性。
3. 多任务与指令微调
- 多任务:共享底座、任务头分离;迁移与正迁移/负迁移诊断;
- 指令微调(指令微调):统一自然语言接口,提升遵循与泛化;
- 自监督 + 指令:先表征后对齐,结合 RLHF/RLAIF 等策略。
4. 并行与系统优化
5. 评估与上线
- 超参搜索:网格/随机/贝叶斯/多保真优化;
- 早停:防止过拟合并节约资源;
- 灰度与回放:降低线上回归风险,监控退化与触发回滚。