变形神经网络 Transformer

Transformer 以自注意力(Self-Attention)为核心,不依赖序列位置的递归或卷积运算,即可建模长程依赖,并在并行性与表示能力上显著优于传统序列模型。其基本结构包括多头自注意力、前馈网络(FFN)、归一化与残差连接,派生出编码器、解码器与编码器-解码器多种拓扑。

1. 基本结构

  • 多头自注意力(MHA):将注意力分解为多头以并行捕捉不同子空间关系。
  • 前馈网络(FFN):逐位置的两层 MLP,提供非线性变换能力。
  • 位置编码:正余弦或可学习编码注入位置信息。
  • 归一化与残差:稳定梯度与深层训练。

2. 编码器 / 解码器家族

3. 训练与推理

4. 优势与局限

  • 优势:并行计算、高效全局建模、统一处理多模态。
  • 局限:二次复杂度注意力限制长上下文;长序列与低延迟生成存在工程挑战。
  • 进展:稀疏/线性注意力、结构化稀疏、检索增强(检索增强生成)。

5. 参考链接

链接