模型量化细节

模型量化通过用低位宽数值近似高精度权重与激活,显著降低内存占用与带宽压力,是大模型推理与边缘部署的关键技术之一。

1. 基本概念

  • 标定(Calibration):统计张量分布估计缩放因子与零点;
  • 对称/非对称:权重常用对称,激活多用非对称;
  • 逐张量/逐通道:后者精度更好但开销更高;
  • 伪量化:训练中插入量化-反量化算子模拟量化误差。

2. PTQ 与 QAT

  • PTQ:以少量校准集快速落地;
  • QAT:显式建模量化噪声,提升精度下限;
  • SmoothQuant/ZeroQuant:面向 Transformer 的改进方案,提升 PTQ 可用性。

3. 低比特与格式

  • INT8/INT4:主流低比特方案;
  • FP8:训练/推理折中;
  • GGUF模型量化:面向本地推理的轻量文件格式,与 llama.cpp 等工具链配合良好。

4. 工程实践

  • 选择感兴趣层:对注意力/FFN 分支分别评估敏感度;
  • 量化感知蒸馏:以教师指导 QAT 学生;
  • 联合优化:剪枝/蒸馏/量化协同;
  • 监控:线上回归测试与回滚阈值。

5. 参考资料

链接