机器学习算法基础
机器学习通过经验风险最小化(ERM)与正则化,在有限样本上学习可泛化的函数映射或数据分布。它由问题设定(任务与数据)、表示学习(特征/编码器)、优化(梯度下降族)、正则化与评估(指标与校准)等模块构成,并依赖稳定的数据/计算工程实现可复现、可观测与可回滚的生产级闭环。
1. 问题设定与数据表示
- 任务:分类/回归/排序/检索/生成;
- 数据:监督/半监督/自监督/强化;训练-验证-测试划分与时间切分;
- 表示:结构化特征工程、文本/图像/时序的深度表征;
- 编码器:静态词向量(Word2Vec编码器、GloVe编码器)与上下文编码(双向变形编码器、E5向量双向变形编码器)。
2. 假设空间、损失与正则
- 假设空间:线性、核方法、树模型、神经网络等不同归纳偏置;
- 损失:交叉熵、均方误差、对比损失、策略梯度等;
- 正则:L1/L2、dropout、早停、数据增广、label smoothing;
- 结构先验:卷积(局部不变性)、自注意力(全局依赖)。
3. 优化与数值稳定
- 优化器:SGD+Momentum、Adam/AdamW、LAMB;
- 学习率:warmup、余弦退火、OneCycle、分段衰减;
- 稳定性:归一化、梯度裁剪、混合精度 FP16/BF16、损失缩放;
- 并行:数据并行/张量并行/传递并行 与通信重叠。
4. 泛化与校准
- 偏差—方差:欠拟合/过拟合诊断;
- 校准:温度缩放、置信度评估与不确定性;
- 分布外(OOD):鲁棒性、漂移监测与门限策略;
- 评估:交叉验证、留一法、时间切分与在线 A/B。
5. 模型族与选择
6. 工程落地
- 推理优化:剪枝/蒸馏/量化(含 GGUF模型量化);
- 端云协同:云计算 与 端计算 的分层部署;
- 拓扑:Nvlink参数 与 PCIE参数 对分布式训练影响显著;
- 可观测性:日志、指标、剖析与回放评估(线下-人评-线上)。
7. 数据与评估治理
- 数据质量:去噪、去重、标注一致性、漂移检测;
- 负样本策略:难负样本挖掘、对比学习温度与采样;
- 评估集建设:覆盖重要细分场景与边界用例;
- 审计:实验复现、版本化、合规追踪(Apache2.0许可证、LlamaCommunity许可证)。
8. 延伸资料
- Deep Learning: https://www.deeplearningbook.org/
- Google ML Guides: https://developers.google.com/machine-learning
- Full Stack Deep Learning: https://fullstackdeeplearning.com/