机器学习算法基础

机器学习通过经验风险最小化(ERM)与正则化,在有限样本上学习可泛化的函数映射或数据分布。它由问题设定(任务与数据)、表示学习(特征/编码器)、优化(梯度下降族)、正则化与评估(指标与校准)等模块构成,并依赖稳定的数据/计算工程实现可复现、可观测与可回滚的生产级闭环。

1. 问题设定与数据表示

2. 假设空间、损失与正则

  • 假设空间:线性、核方法、树模型、神经网络等不同归纳偏置;
  • 损失:交叉熵、均方误差、对比损失、策略梯度等;
  • 正则:L1/L2、dropout、早停、数据增广、label smoothing;
  • 结构先验:卷积(局部不变性)、自注意力(全局依赖)。

3. 优化与数值稳定

  • 优化器:SGD+Momentum、Adam/AdamW、LAMB;
  • 学习率:warmup、余弦退火、OneCycle、分段衰减;
  • 稳定性:归一化、梯度裁剪、混合精度 FP16/BF16、损失缩放;
  • 并行:数据并行/张量并行/传递并行 与通信重叠。

4. 泛化与校准

  • 偏差—方差:欠拟合/过拟合诊断;
  • 校准:温度缩放、置信度评估与不确定性;
  • 分布外(OOD):鲁棒性、漂移监测与门限策略;
  • 评估:交叉验证、留一法、时间切分与在线 A/B。

5. 模型族与选择

6. 工程落地

7. 数据与评估治理

  • 数据质量:去噪、去重、标注一致性、漂移检测;
  • 负样本策略:难负样本挖掘、对比学习温度与采样;
  • 评估集建设:覆盖重要细分场景与边界用例;
  • 审计:实验复现、版本化、合规追踪(Apache2.0许可证LlamaCommunity许可证)。

8. 延伸资料

链接