模型量化(Model Quantization)

定义

  • 将高精度权重/激活(FP32/FP16)映射为低位宽(INT8/INT4/FP8 等)表示,以降低显存与带宽、提升吞吐并降低成本。

分类

  • 静态/动态:是否在离线校准与在线运行时分别确定量化参数;
  • per-tensor/per-channel:缩放因子粒度;
  • 对称/非对称:零点选择策略;
  • 权重量化/激活量化/KV Cache 量化:作用对象不同。

工程要点

  • 量化感知训练(QAT)与后训练量化(PTQ);
  • 误差控制:夹紧、重参数化、分组与 outlier 通道保留;
  • 与蒸馏/剪枝/编译器优化协同;
  • 本地部署生态:参见 GGUF模型量化