误差度量
误差度量(Metric)用于客观衡量模型性能,是模型选择、调参与上线的基石。指标的选择必须与业务目标强一致,并考虑样本不平衡、置信校准、鲁棒性与可解释性。错误的指标会驱动错误的优化方向,导致“线下好、线上差”的脱节。
1. 回归任务
- 均方误差(MSE):惩罚大误差更重;对异常值敏感;
- MAE:对噪声更鲁棒;
- R^2:解释方差比例,直观衡量拟合优度;
- 分位回归:关注条件分布分位而非均值,适配风控与延迟预算等场景。
2. 分类任务
- Acc/Err:简单直观,但在不平衡场景失真;
- 精确率/召回率/F1:兼顾查准与查全;
- ROC-AUC/PR-AUC:阈值无关评估;PR-AUC 更关注正类稀疏时的前列质量;
- LogLoss/交叉熵:刻画概率质量与校准;可配合温度缩放改善置信。
3. 排序与推荐
- NDCG、MAP、MRR:关注位次与头部质量;
- HitRate/Recall@K:前 K 的覆盖;
- 曝光与偏置修正:IPS/DR/因果评估框架。
4. 生成与多模态
- 文本:BLEU、ROUGE、BERTScore、BLEURT;
- 图像:FID/IS;
- 多模态:CLIPScore;
- 人评:主观质量、事实性、安全性与价值对齐。
5. 工程视角
- 统计显著性:置信区间、p 值、功效分析;
- 线上一致性:离线指标与线上 KPI 相关性验证;
- 可靠性:不确定性估计、分布外检测;
- 监控:漂移/退化自动告警与回滚触发。