GGUF 模型量化(GGUF Model Quantization)

定义

  • GGUF 是面向本地推理生态(如 llama.cpp、llama.cpp 生态工具链)的模型权重容器与量化格式,支持将 FP16/FP32 权重压缩为 INT8/INT4/混合精度,以降低显存与带宽需求。

常见量化方案

  • 对称/非对称:零点是否为 0;
  • per-tensor / per-channel:按张量整体或按通道分别统计缩放因子;
  • 混合精度:对敏感层(嵌入、LayerNorm 等)保留更高位宽,对线性层使用低位宽;
  • 典型配置:Q8_0、Q6_K、Q5_K、Q4_0、Q4_K_M 等(随实现演进)。

工程影响

  • 推理端:显著降低显存占用与 I/O 带宽;对延迟/吞吐有益;
  • 质量权衡:困惑度、长上下文稳定性与生成一致性略受影响;
  • 结合技巧:KV Cache 压缩、分批/缓存编排、GPU/CPU 混合执行。

相关

  • 对比:模型量化(概念总览)。
  • 上下文:计算模式 中的端侧/本地部署,RAG 场景的高并发推理。