模型优化方法

模型优化旨在在保持精度的前提下降低计算和存储成本,提升吞吐与降低时延。典型手段包括剪枝、蒸馏与量化,并辅以算子/图级优化、缓存与编译工具链。

1. 剪枝(Pruning)

  • 训练后剪枝:依据重要性评分(权重幅度/敏感度)进行通道/滤波器/层级剪枝;
  • 训练中剪枝:Lottery Ticket、动态稀疏训练;
  • 结构化 vs 非结构化:前者易获得真实加速,后者需稀疏内核支持。

2. 蒸馏(Distillation)

  • 软标签蒸馏:以教师 logits 指导学生;
  • 特征蒸馏:对齐中间表征;
  • 数据蒸馏:生成与合成数据以替代或补充真实样本;
  • 任务蒸馏:跨任务迁移能力,适配多目标。

3. 量化(Quantization)

  • PTQ/QAT:后训练量化快速、量化感知训练精度更优;
  • 位宽:INT8/INT4/FP8 与 GGUF模型量化
  • 校准与策略:对称/非对称、逐张量/逐通道、感知与误差补偿。

4. 系统与部署

  • 图编译与算子融合:ONNX/TensorRT、TVM;
  • KV Cache 与张量缓存:自回归推理降时延;
  • 并发/批处理:吞吐-时延 Pareto 权衡;
  • 监控与回滚:上线后精度退化与性能波动治理。

5. 参考

链接