VoltIQ Docs

❯

03 深度学习模型训练与优化

❯

❯

模型量化

Sep 07, 20251 min read

模型量化（Model Quantization）

定义

将高精度权重/激活（FP32/FP16）映射为低位宽（INT8/INT4/FP8 等）表示，以降低显存与带宽、提升吞吐并降低成本。

分类

静态/动态：是否在离线校准与在线运行时分别确定量化参数；
per-tensor/per-channel：缩放因子粒度；
对称/非对称：零点选择策略；
权重量化/激活量化/KV Cache 量化：作用对象不同。

工程要点

量化感知训练（QAT）与后训练量化（PTQ）；
误差控制：夹紧、重参数化、分组与 outlier 通道保留；
与蒸馏/剪枝/编译器优化协同；
本地部署生态：参见 GGUF模型量化。

Graph View

Backlinks

人工智能概览
变形神经网络 Transformer
变形解码器
权重
激活函数
GGUF模型量化
模型优化
模型优化方法
端计算

Created with Quartz v4.5.1 © 2025