LoRA 微调(Low-Rank Adaptation)
定义
- 将大权重矩阵的更新参数近似为两个低秩矩阵的乘积,仅训练低秩增量参数,冻结原始权重,从而显著降低可训练参数规模与显存占用。
核心公式
- 令权重 W ∈ R^{d×k},训练增量 ΔW = A·B,其中 A ∈ R^{d×r}、B ∈ R^{r×k},r ≪ min(d,k)。推理时可将 W+ΔW 合并或按分支求值。
工程特点
- 轻量:训练/存储/部署友好;
- 适配性:可对特定层(如注意力的 q/k/v/proj、FFN)插入 LoRA 分支;
- 多适配器融合:不同任务的 LoRA 权重可按系数融合;
- 与 ZeRO微调神经网络训练、混合并行、梯度累积结合良好。
应用
- 指令微调、领域对齐、风格迁移、多语言适配、RAG 重写器/重排器适配等。