误差度量

误差度量(Metric)用于客观衡量模型性能,是模型选择、调参与上线的基石。指标的选择必须与业务目标强一致,并考虑样本不平衡、置信校准、鲁棒性与可解释性。错误的指标会驱动错误的优化方向,导致“线下好、线上差”的脱节。

1. 回归任务

  • 均方误差(MSE):惩罚大误差更重;对异常值敏感;
  • MAE:对噪声更鲁棒;
  • R^2:解释方差比例,直观衡量拟合优度;
  • 分位回归:关注条件分布分位而非均值,适配风控与延迟预算等场景。

2. 分类任务

  • Acc/Err:简单直观,但在不平衡场景失真;
  • 精确率/召回率/F1:兼顾查准与查全;
  • ROC-AUC/PR-AUC:阈值无关评估;PR-AUC 更关注正类稀疏时的前列质量;
  • LogLoss/交叉熵:刻画概率质量与校准;可配合温度缩放改善置信。

3. 排序与推荐

  • NDCG、MAP、MRR:关注位次与头部质量;
  • HitRate/Recall@K:前 K 的覆盖;
  • 曝光与偏置修正:IPS/DR/因果评估框架。

4. 生成与多模态

  • 文本:BLEU、ROUGE、BERTScore、BLEURT;
  • 图像:FID/IS;
  • 多模态:CLIPScore;
  • 人评:主观质量、事实性、安全性与价值对齐。

5. 工程视角

  • 统计显著性:置信区间、p 值、功效分析;
  • 线上一致性:离线指标与线上 KPI 相关性验证;
  • 可靠性:不确定性估计、分布外检测;
  • 监控:漂移/退化自动告警与回滚触发。

6. 参考与资料

链接