VoltIQ Docs

❯

04 自然语言处理编码与生成

❯

传统文本编码器

传统文本编码器

Sep 07, 20254 min read

传统文本编码器

传统文本编码器以静态词向量为代表，通过大规模语料的共现统计来学习词的分布式表示。这类方法训练高效、实现简单、资源占用低，适合在数据/算力受限或词表相对稳定的业务中快速落地。典型代表包括 Word2Vec编码器（CBOW/Skip-Gram）与 GloVe编码器。尽管它们无法区分上下文多义，但在诸多下游任务中仍是强健的基线与特征来源。

1. Word2Vec 家族

CBOW：用上下文窗口预测中心词，偏向学习频繁词的平滑分布；
Skip-Gram：用中心词预测上下文，对稀有词更友好；
训练技巧：负采样（Negative Sampling）与分层 Softmax 降低计算开销；
窗口与采样：动态窗口、子采样高频词、去除停用词能改善质量；
局限：词向量静态，难以表示“一词多义”与长程依赖。

2. GloVe

思想：对全局词-词共现矩阵进行加权分解，捕捉全局统计结构；
优势：收敛快、可解释性好；
细节：平衡函数调节频繁与稀疏共现对目标的贡献；
对比 Word2Vec：局部（滑窗）统计 vs 全局（矩阵）统计的互补性。

3. 工程与应用

词表管理：小语种或专业领域需自建词表；可结合子词（BPE/WordPiece）缓解 OOV；
领域适配：继续在领域语料上训练以注入专业语义；
下游组合：静态向量 + 轻量 MLP/CNN/LSTM 构建快速基线；
评估：词类比（Analogy）、相似度（SimLex）、下游准确率；
融合策略：与上下文编码器（BERT/E5）拼接或蒸馏，兼顾效率与效果。

4. 在 RAG 与检索中的角色

候选生成：静态向量用于快速粗召回，之后交由上下文编码器重排；
资源受限部署：在边缘设备上以较小存储与算力提供近似语义检索能力；
混合索引：BM25 + 词向量/句向量的互补，缓解纯向量检索的领域漂移问题。

5. 实践清单

质检：去噪、去重、正则化文本；
训练：合理设置窗口大小、负采样率与学习率退火；
调参：词向量维度、子采样阈值、负样本数量；
可视化：t-SNE/UMAP 分析词簇与异常点。

6. 参考与链接

Word2Vec: https://arxiv.org/abs/1301.3781
GloVe: https://nlp.stanford.edu/pubs/glove.pdf
名词卡：Word2Vec编码器、GloVe编码器、编码器

链接

Index
基于Transformer的编码器
RAG概览
编码器基础

Graph View

传统文本编码器
1. Word2Vec 家族
2. GloVe
3. 工程与应用
4. 在 RAG 与检索中的角色
5. 实践清单
6. 参考与链接
链接

Backlinks

基于Transformer的编码器
编码器基础
Welcome

Created with Quartz v4.5.1 © 2025