VoltIQ Docs

❯

03 深度学习模型训练与优化

❯

误差度量

Sep 07, 20253 min read

误差度量

误差度量（Metric）用于客观衡量模型性能，是模型选择、调参与上线的基石。指标的选择必须与业务目标强一致，并考虑样本不平衡、置信校准、鲁棒性与可解释性。错误的指标会驱动错误的优化方向，导致“线下好、线上差”的脱节。

1. 回归任务

均方误差（MSE）：惩罚大误差更重；对异常值敏感；
MAE：对噪声更鲁棒；
R^2：解释方差比例，直观衡量拟合优度；
分位回归：关注条件分布分位而非均值，适配风控与延迟预算等场景。

2. 分类任务

Acc/Err：简单直观，但在不平衡场景失真；
精确率/召回率/F1：兼顾查准与查全；
ROC-AUC/PR-AUC：阈值无关评估；PR-AUC 更关注正类稀疏时的前列质量；
LogLoss/交叉熵：刻画概率质量与校准；可配合温度缩放改善置信。

3. 排序与推荐

NDCG、MAP、MRR：关注位次与头部质量；
HitRate/Recall@K：前 K 的覆盖；
曝光与偏置修正：IPS/DR/因果评估框架。

4. 生成与多模态

文本：BLEU、ROUGE、BERTScore、BLEURT；
图像：FID/IS；
多模态：CLIPScore；
人评：主观质量、事实性、安全性与价值对齐。

5. 工程视角

统计显著性：置信区间、p 值、功效分析；
线上一致性：离线指标与线上 KPI 相关性验证；
可靠性：不确定性估计、分布外检测；
监控：漂移/退化自动告警与回滚触发。

6. 参考与资料

A Survey of Evaluation Metrics
Calibrated Classifiers
名词卡：误差、均方误差

链接

Index
微调技术
模型优化方法
模型训练策略
模型量化细节
神经网络训练基础

Graph View

误差度量
1. 回归任务
2. 分类任务
3. 排序与推荐
4. 生成与多模态
5. 工程视角
6. 参考与资料
链接

Backlinks

微调技术
模型优化方法
模型训练策略
模型量化细节
神经网络训练基础
Welcome

Created with Quartz v4.5.1 © 2025