传统文本编码器

传统文本编码器以静态词向量为代表,通过大规模语料的共现统计来学习词的分布式表示。这类方法训练高效、实现简单、资源占用低,适合在数据/算力受限或词表相对稳定的业务中快速落地。典型代表包括 Word2Vec编码器(CBOW/Skip-Gram)与 GloVe编码器。尽管它们无法区分上下文多义,但在诸多下游任务中仍是强健的基线与特征来源。

1. Word2Vec 家族

  • CBOW:用上下文窗口预测中心词,偏向学习频繁词的平滑分布;
  • Skip-Gram:用中心词预测上下文,对稀有词更友好;
  • 训练技巧:负采样(Negative Sampling)与分层 Softmax 降低计算开销;
  • 窗口与采样:动态窗口、子采样高频词、去除停用词能改善质量;
  • 局限:词向量静态,难以表示“一词多义”与长程依赖。

2. GloVe

  • 思想:对全局词-词共现矩阵进行加权分解,捕捉全局统计结构;
  • 优势:收敛快、可解释性好;
  • 细节:平衡函数调节频繁与稀疏共现对目标的贡献;
  • 对比 Word2Vec:局部(滑窗)统计 vs 全局(矩阵)统计的互补性。

3. 工程与应用

  • 词表管理:小语种或专业领域需自建词表;可结合子词(BPE/WordPiece)缓解 OOV;
  • 领域适配:继续在领域语料上训练以注入专业语义;
  • 下游组合:静态向量 + 轻量 MLP/CNN/LSTM 构建快速基线;
  • 评估:词类比(Analogy)、相似度(SimLex)、下游准确率;
  • 融合策略:与上下文编码器(BERT/E5)拼接或蒸馏,兼顾效率与效果。

4. 在 RAG 与检索中的角色

  • 候选生成:静态向量用于快速粗召回,之后交由上下文编码器重排;
  • 资源受限部署:在边缘设备上以较小存储与算力提供近似语义检索能力;
  • 混合索引:BM25 + 词向量/句向量的互补,缓解纯向量检索的领域漂移问题。

5. 实践清单

  • 质检:去噪、去重、正则化文本;
  • 训练:合理设置窗口大小、负采样率与学习率退火;
  • 调参:词向量维度、子采样阈值、负样本数量;
  • 可视化:t-SNE/UMAP 分析词簇与异常点。

6. 参考与链接

链接