传统文本编码器
传统文本编码器以静态词向量为代表,通过大规模语料的共现统计来学习词的分布式表示。这类方法训练高效、实现简单、资源占用低,适合在数据/算力受限或词表相对稳定的业务中快速落地。典型代表包括 Word2Vec编码器(CBOW/Skip-Gram)与 GloVe编码器。尽管它们无法区分上下文多义,但在诸多下游任务中仍是强健的基线与特征来源。
1. Word2Vec 家族
- CBOW:用上下文窗口预测中心词,偏向学习频繁词的平滑分布;
- Skip-Gram:用中心词预测上下文,对稀有词更友好;
- 训练技巧:负采样(Negative Sampling)与分层 Softmax 降低计算开销;
- 窗口与采样:动态窗口、子采样高频词、去除停用词能改善质量;
- 局限:词向量静态,难以表示“一词多义”与长程依赖。
2. GloVe
- 思想:对全局词-词共现矩阵进行加权分解,捕捉全局统计结构;
- 优势:收敛快、可解释性好;
- 细节:平衡函数调节频繁与稀疏共现对目标的贡献;
- 对比 Word2Vec:局部(滑窗)统计 vs 全局(矩阵)统计的互补性。
3. 工程与应用
- 词表管理:小语种或专业领域需自建词表;可结合子词(BPE/WordPiece)缓解 OOV;
- 领域适配:继续在领域语料上训练以注入专业语义;
- 下游组合:静态向量 + 轻量 MLP/CNN/LSTM 构建快速基线;
- 评估:词类比(Analogy)、相似度(SimLex)、下游准确率;
- 融合策略:与上下文编码器(BERT/E5)拼接或蒸馏,兼顾效率与效果。
4. 在 RAG 与检索中的角色
- 候选生成:静态向量用于快速粗召回,之后交由上下文编码器重排;
- 资源受限部署:在边缘设备上以较小存储与算力提供近似语义检索能力;
- 混合索引:BM25 + 词向量/句向量的互补,缓解纯向量检索的领域漂移问题。
5. 实践清单
- 质检:去噪、去重、正则化文本;
- 训练:合理设置窗口大小、负采样率与学习率退火;
- 调参:词向量维度、子采样阈值、负样本数量;
- 可视化:t-SNE/UMAP 分析词簇与异常点。
6. 参考与链接
- Word2Vec: https://arxiv.org/abs/1301.3781
- GloVe: https://nlp.stanford.edu/pubs/glove.pdf
- 名词卡:Word2Vec编码器、GloVe编码器、编码器