模型量化(Model Quantization)
定义
- 将高精度权重/激活(FP32/FP16)映射为低位宽(INT8/INT4/FP8 等)表示,以降低显存与带宽、提升吞吐并降低成本。
分类
- 静态/动态:是否在离线校准与在线运行时分别确定量化参数;
- per-tensor/per-channel:缩放因子粒度;
- 对称/非对称:零点选择策略;
- 权重量化/激活量化/KV Cache 量化:作用对象不同。
工程要点
- 量化感知训练(QAT)与后训练量化(PTQ);
- 误差控制:夹紧、重参数化、分组与 outlier 通道保留;
- 与蒸馏/剪枝/编译器优化协同;
- 本地部署生态:参见 GGUF模型量化。