变形神经网络 Transformer
Transformer 以自注意力(Self-Attention)为核心,不依赖序列位置的递归或卷积运算,即可建模长程依赖,并在并行性与表示能力上显著优于传统序列模型。其基本结构包括多头自注意力、前馈网络(FFN)、归一化与残差连接,派生出编码器、解码器与编码器-解码器多种拓扑。
1. 基本结构
- 多头自注意力(MHA):将注意力分解为多头以并行捕捉不同子空间关系。
- 前馈网络(FFN):逐位置的两层 MLP,提供非线性变换能力。
- 位置编码:正余弦或可学习编码注入位置信息。
- 归一化与残差:稳定梯度与深层训练。
2. 编码器 / 解码器家族
- 编码器(Encoder):适合提取双向上下文表征,代表如 变形编码器、双向变形编码器(BERT、E5向量双向变形编码器)。
- 解码器(Decoder):自回归生成,代表如 GPT;参见 变形解码器。
- 编码器-解码器:机器翻译等任务中广泛使用。
3. 训练与推理
- 预训练任务:掩码语言建模、下一词预测、指令微调等(参见 指令微调)。
- 优化与并行:数据/张量/流水线并行(数据并行、张量并行、传递并行)与显存优化(激活检查点、ZeRO)。
- 部署:图编译、KV Cache、量化与蒸馏以提升时延与吞吐(参见 模型量化、GGUF模型量化)。
4. 优势与局限
- 优势:并行计算、高效全局建模、统一处理多模态。
- 局限:二次复杂度注意力限制长上下文;长序列与低延迟生成存在工程挑战。
- 进展:稀疏/线性注意力、结构化稀疏、检索增强(检索增强生成)。