VoltIQ Docs

❯

04 自然语言处理编码与生成

❯

基于Transformer的编码器

基于Transformer的编码器

Sep 07, 20253 min read

基于 Transformer 的编码器

基于 Transformer 的编码器以自注意力机制为核心，能够对序列进行全局依赖建模，并与残差连接、归一化和前馈网络（FFN）共同构成强大的上下文表征模型。BERT/RoBERTa/E5 等模型在检索、相似度计算、分类与信息抽取等任务中表现卓越，是现代 NLP 的主力底座之一。

1. 架构回顾

多头自注意力（MHA）：通过多头捕捉不同子空间关系，增强表达能力；
FFN：逐位置的非线性变换，通常包含激活（ReLU/GELU，参见激活函数）；
LayerNorm 与残差：稳定深层训练与梯度传播；
位置编码：正余弦/可学习编码注入位置信息。

2. 训练目标

MLM：掩码语言建模，学习双向上下文（双向变形编码器）；
对比学习：句向量任务中使用 InfoNCE/Triplet Loss；
多任务：NLI/STS/检索三元组联合优化以提升泛化；
继续预训练：在特定领域语料上继续训练以对齐专业词汇与分布。

3. 向量化与池化

CLS 池化：读取 [CLS] 表位；
平均池化：对 token 向量取平均，鲁棒性强；
任务化池化：结合注意力或门控的加权策略提升句向量质量；
归一化：L2 归一化提升余弦相似度的稳定性与阈值可解释性。

4. 检索与 RAG 落地

召回与重排：双塔召回 + cross-encoder 重排；
索引：HNSW/IVF-PQ/OPQ；
量化与部署：蒸馏、剪枝与 GGUF模型量化降低延迟，使之适配本地/边缘推理；
在检索增强生成中：提升事实性、降低幻觉，配合证据引用与拒答策略。

5. 工程技巧

数据治理：去重、难负样本挖掘、跨域混合配比；
学习率与温度：对对比损失的温度敏感，需网格化搜索；
评估：MTEB/域内测试/在线 KPI 闭环；
漂移与回滚：上线后监测退化并快速回滚。

6. 参考

BERT: https://arxiv.org/abs/1810.04805
RoBERTa: https://arxiv.org/abs/1907.11692
E5: https://arxiv.org/abs/2402.17510
名词卡：变形编码器、双向变形编码器、E5向量双向变形编码器、激活函数

链接

Index
传统文本编码器
RAG概览
编码器基础

Graph View

基于 Transformer 的编码器
1. 架构回顾
2. 训练目标
3. 向量化与池化
4. 检索与 RAG 落地
5. 工程技巧
6. 参考
链接

Backlinks

传统文本编码器
编码器基础
文本向量化技术
Welcome

Created with Quartz v4.5.1 © 2025