微调技术
微调技术侧重以较少的参数与样本,快速将通用预训练模型适配到特定任务或领域。现代工业实践优先选择参数高效微调(PEFT),以实现“性能—成本—迭代速度”的三赢。
1. 技术谱系
- Full fine-tune:更新全部参数,最灵活但成本高;
- Adapter:层间插入瓶颈模块,参数可热插拔与复用;
- Prefix/Prompt Tuning:在输入或注意力键值处注入可学习向量;
- LoRA(LoRA微调神经网络训练):对权重矩阵引入低秩近似,仅训练小矩阵;
- BitFit:只调偏置(参见 偏置),极致参数高效;
- 指令微调:以指令数据对齐通用能力(参见 指令微调)。
2. 分布式与显存优化
- ZeRO 分片(ZeRO微调神经网络训练)降低显存;
- 混合并行:结合 数据并行/张量并行/传递并行;
- 激活检查点与梯度累积:时延与显存的权衡;
- 混合精度:BF16/FP16 加速,配合损失缩放稳定训练。
3. 评估与迁移
- Few/Zero-shot:评估可迁移性;
- 领域泛化:跨域测试、鲁棒性与漂移耐受;
- 可复用模块库:统一管理不同任务的 Adapter/LoRA 权重,版本可追溯。
4. 工程清单
- 统一数据 schema 与质量门槛;
- 任务模板化与 Prompt 规范;
- 指标与用例集分层评测;
- 上线灰度、监控与回滚策略。