基于 Transformer 的编码器
基于 Transformer 的编码器以自注意力机制为核心,能够对序列进行全局依赖建模,并与残差连接、归一化和前馈网络(FFN)共同构成强大的上下文表征模型。BERT/RoBERTa/E5 等模型在检索、相似度计算、分类与信息抽取等任务中表现卓越,是现代 NLP 的主力底座之一。
1. 架构回顾
- 多头自注意力(MHA):通过多头捕捉不同子空间关系,增强表达能力;
- FFN:逐位置的非线性变换,通常包含激活(ReLU/GELU,参见 激活函数);
- LayerNorm 与残差:稳定深层训练与梯度传播;
- 位置编码:正余弦/可学习编码注入位置信息。
2. 训练目标
- MLM:掩码语言建模,学习双向上下文(双向变形编码器);
- 对比学习:句向量任务中使用 InfoNCE/Triplet Loss;
- 多任务:NLI/STS/检索三元组联合优化以提升泛化;
- 继续预训练:在特定领域语料上继续训练以对齐专业词汇与分布。
3. 向量化与池化
- CLS 池化:读取 [CLS] 表位;
- 平均池化:对 token 向量取平均,鲁棒性强;
- 任务化池化:结合注意力或门控的加权策略提升句向量质量;
- 归一化:L2 归一化提升余弦相似度的稳定性与阈值可解释性。
4. 检索与 RAG 落地
- 召回与重排:双塔召回 + cross-encoder 重排;
- 索引:HNSW/IVF-PQ/OPQ;
- 量化与部署:蒸馏、剪枝与 GGUF模型量化 降低延迟,使之适配本地/边缘推理;
- 在 检索增强生成 中:提升事实性、降低幻觉,配合证据引用与拒答策略。
5. 工程技巧
- 数据治理:去重、难负样本挖掘、跨域混合配比;
- 学习率与温度:对对比损失的温度敏感,需网格化搜索;
- 评估:MTEB/域内测试/在线 KPI 闭环;
- 漂移与回滚:上线后监测退化并快速回滚。
6. 参考
- BERT: https://arxiv.org/abs/1810.04805
- RoBERTa: https://arxiv.org/abs/1907.11692
- E5: https://arxiv.org/abs/2402.17510
- 名词卡:变形编码器、双向变形编码器、E5向量双向变形编码器、激活函数