基于 Transformer 的编码器

基于 Transformer 的编码器以自注意力机制为核心,能够对序列进行全局依赖建模,并与残差连接、归一化和前馈网络(FFN)共同构成强大的上下文表征模型。BERT/RoBERTa/E5 等模型在检索、相似度计算、分类与信息抽取等任务中表现卓越,是现代 NLP 的主力底座之一。

1. 架构回顾

  • 多头自注意力(MHA):通过多头捕捉不同子空间关系,增强表达能力;
  • FFN:逐位置的非线性变换,通常包含激活(ReLU/GELU,参见 激活函数);
  • LayerNorm 与残差:稳定深层训练与梯度传播;
  • 位置编码:正余弦/可学习编码注入位置信息。

2. 训练目标

  • MLM:掩码语言建模,学习双向上下文(双向变形编码器);
  • 对比学习:句向量任务中使用 InfoNCE/Triplet Loss;
  • 多任务:NLI/STS/检索三元组联合优化以提升泛化;
  • 继续预训练:在特定领域语料上继续训练以对齐专业词汇与分布。

3. 向量化与池化

  • CLS 池化:读取 [CLS] 表位;
  • 平均池化:对 token 向量取平均,鲁棒性强;
  • 任务化池化:结合注意力或门控的加权策略提升句向量质量;
  • 归一化:L2 归一化提升余弦相似度的稳定性与阈值可解释性。

4. 检索与 RAG 落地

  • 召回与重排:双塔召回 + cross-encoder 重排;
  • 索引:HNSW/IVF-PQ/OPQ;
  • 量化与部署:蒸馏、剪枝与 GGUF模型量化 降低延迟,使之适配本地/边缘推理;
  • 检索增强生成 中:提升事实性、降低幻觉,配合证据引用与拒答策略。

5. 工程技巧

  • 数据治理:去重、难负样本挖掘、跨域混合配比;
  • 学习率与温度:对对比损失的温度敏感,需网格化搜索;
  • 评估:MTEB/域内测试/在线 KPI 闭环;
  • 漂移与回滚:上线后监测退化并快速回滚。

6. 参考

链接