LoRA 微调(Low-Rank Adaptation)

定义

  • 将大权重矩阵的更新参数近似为两个低秩矩阵的乘积,仅训练低秩增量参数,冻结原始权重,从而显著降低可训练参数规模与显存占用。

核心公式

  • 令权重 W ∈ R^{d×k},训练增量 ΔW = A·B,其中 A ∈ R^{d×r}、B ∈ R^{r×k},r ≪ min(d,k)。推理时可将 W+ΔW 合并或按分支求值。

工程特点

  • 轻量:训练/存储/部署友好;
  • 适配性:可对特定层(如注意力的 q/k/v/proj、FFN)插入 LoRA 分支;
  • 多适配器融合:不同任务的 LoRA 权重可按系数融合;
  • ZeRO微调神经网络训练、混合并行、梯度累积结合良好。

应用

  • 指令微调、领域对齐、风格迁移、多语言适配、RAG 重写器/重排器适配等。