GGUF 模型量化(GGUF Model Quantization)
定义
- GGUF 是面向本地推理生态(如 llama.cpp、llama.cpp 生态工具链)的模型权重容器与量化格式,支持将 FP16/FP32 权重压缩为 INT8/INT4/混合精度,以降低显存与带宽需求。
常见量化方案
- 对称/非对称:零点是否为 0;
- per-tensor / per-channel:按张量整体或按通道分别统计缩放因子;
- 混合精度:对敏感层(嵌入、LayerNorm 等)保留更高位宽,对线性层使用低位宽;
- 典型配置:Q8_0、Q6_K、Q5_K、Q4_0、Q4_K_M 等(随实现演进)。
工程影响
- 推理端:显著降低显存占用与 I/O 带宽;对延迟/吞吐有益;
- 质量权衡:困惑度、长上下文稳定性与生成一致性略受影响;
- 结合技巧:KV Cache 压缩、分批/缓存编排、GPU/CPU 混合执行。
相关