模型量化细节
模型量化通过用低位宽数值近似高精度权重与激活,显著降低内存占用与带宽压力,是大模型推理与边缘部署的关键技术之一。
1. 基本概念
- 标定(Calibration):统计张量分布估计缩放因子与零点;
- 对称/非对称:权重常用对称,激活多用非对称;
- 逐张量/逐通道:后者精度更好但开销更高;
- 伪量化:训练中插入量化-反量化算子模拟量化误差。
2. PTQ 与 QAT
- PTQ:以少量校准集快速落地;
- QAT:显式建模量化噪声,提升精度下限;
- SmoothQuant/ZeroQuant:面向 Transformer 的改进方案,提升 PTQ 可用性。
3. 低比特与格式
- INT8/INT4:主流低比特方案;
- FP8:训练/推理折中;
- GGUF模型量化:面向本地推理的轻量文件格式,与 llama.cpp 等工具链配合良好。
4. 工程实践
- 选择感兴趣层:对注意力/FFN 分支分别评估敏感度;
- 量化感知蒸馏:以教师指导 QAT 学生;
- 联合优化:剪枝/蒸馏/量化协同;
- 监控:线上回归测试与回滚阈值。