VoltIQ Docs

❯

03 深度学习模型训练与优化

❯

模型量化细节

模型量化细节

Sep 07, 20252 min read

模型量化细节

模型量化通过用低位宽数值近似高精度权重与激活，显著降低内存占用与带宽压力，是大模型推理与边缘部署的关键技术之一。

1. 基本概念

标定（Calibration）：统计张量分布估计缩放因子与零点；
对称/非对称：权重常用对称，激活多用非对称；
逐张量/逐通道：后者精度更好但开销更高；
伪量化：训练中插入量化-反量化算子模拟量化误差。

2. PTQ 与 QAT

PTQ：以少量校准集快速落地；
QAT：显式建模量化噪声，提升精度下限；
SmoothQuant/ZeroQuant：面向 Transformer 的改进方案，提升 PTQ 可用性。

3. 低比特与格式

INT8/INT4：主流低比特方案；
FP8：训练/推理折中；
GGUF模型量化：面向本地推理的轻量文件格式，与 llama.cpp 等工具链配合良好。

4. 工程实践

选择感兴趣层：对注意力/FFN 分支分别评估敏感度；
量化感知蒸馏：以教师指导 QAT 学生；
联合优化：剪枝/蒸馏/量化协同；
监控：线上回归测试与回滚阈值。

5. 参考资料

Post-Training Quantization for Transformers
SmoothQuant
llama.cpp GGUF

链接

Index
微调技术
模型优化方法
模型训练策略
神经网络训练基础
误差度量

Graph View

模型量化细节
1. 基本概念
2. PTQ 与 QAT
3. 低比特与格式
4. 工程实践
5. 参考资料
链接

Backlinks

微调技术
模型优化方法
模型训练策略
神经网络训练基础
误差度量
大语言模型应用
Welcome

Created with Quartz v4.5.1 © 2025