Transformer里的词嵌入和Word2Vec有啥本质区别？为啥同一个词在不同句子里向量会变？

词嵌入（Word Embedding）是将离散的词语映射为低维连续向量，可捕捉语义和语法信息，是许多NLP任务的核心技术之一，也是Transformer等先进架构的初始输入形式，推动了NLP进步，使计算机能更好地理解和生成人类语言，在智能交互、信息检索、机器翻译等领域有广泛应用前景[^1][^2]。在Transformer中的位置方面，输入层每个词通过嵌入层转换为向量，例如 embedding_dim 通常设为 512；输出层中，解码器输出的向量通过反向嵌入映射回词表概率，如 logits = decoder_output * embedding_matrix^T [^1]。文本中的词汇在输入到词嵌入层之前，需先进行数字化表示，词嵌入层的目的是将文本中词汇的数字表示转变为向量表示，从而在高维空间捕捉文本词汇之间的关系。以下是一个构建Embedding类实现文本嵌入层的示例代码： ```python import torch import math import torch.nn as nn class Embeddings(nn.Module): def __init__(self, d_model, vocab): # d_model: 词嵌入的维度 # vocab: 词表的大小 super(Embeddings, self).__init__() # 定义Embedding层 self.lut = nn.Embedding(vocab, d_model) # 将参数传入类中 self.d_model = d_model def forward(self, x): # x: 代表输入进模型的文本通过词汇映射后的数字张量 return self.lut(x) * math.sqrt(self.d_model) d_model = 512 vocab = 1000 x = torch.LongTensor([[100, 2, 421, 508], [491, 998, 1, 221]]) # 创建了一个包含两个样本的输入张量，每个样本包含四个词汇索引。 emb = Embeddings(d_model, vocab) embr = emb(x) print("embr:", embr) print(embr.shape) # 打印嵌入后的张量和其形状。输出的形状应该是(2, 4, 512)，表示有两个样本，每个样本有四个词汇，每个词汇映射到一个512维的向量 ``` 与Word2Vec相比，Transformer中的词嵌入具有上下文相关性动态、端到端学习（通常结合预训练任务）、能基于上下文动态调整处理多义词、通过位置编码包含位置信息、参数规模较大（嵌入层是模型的一部分）等特点；而Word2Vec上下文相关性是静态的，采用独立预训练（无监督），无法区分多义词，无位置信息，参数规模较小（仅词表大小 × 嵌入维度） [^1]。 Transformer词嵌入的核心革新在于上下文相关（Contextualized Embeddings），同一词在不同上下文中向量不同 [^1]。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python在电商运营中能干哪些实际工作？比如分析数据、自动跑报表这些事靠谱吗？

目录

Transformer里的词嵌入和Word2Vec有啥本质区别？为啥同一个词在不同句子里向量会变？

Python内容推荐

Python-按word2vec格式存储的BERT预训练模型

Python-面向文本分类的经典向量化方法实现与比较

基于词向量的机器翻译Python代码

Python-问题句子相似度计算即给定客服里用户描述的两句话用算法来判断是否表示了相同的语义

词嵌入与Transformer解析[代码]

transformer详解

Word2Vec详解1

基于词向量使用Pytorch常规自编码器对句子进行向量表示与降维

谁说发 paper 一定要追快打新？2021年，研究 word2vec 也能中顶会！ .pdf

paddle_nlp_之词或者句子相似度计算.zip

NLP的游戏规则从此改写？从word2vec,-ELMo到BERT.rar

word2vec

句子相似性建模综述

中文分词获取和Word2Vec模型构建.zip

chap-语言模型与词嵌入1

自然语言处理-词嵌入算法总结.pptx

从深度学习回顾自然语言处理词嵌入方法.pdf

Word2Vec Tutorial - The Skip-Gram Model · Chris McCormick.pdf

【MIMIC-IV/pytorch实战】基于word2vec、transformer进行英文影像报告文本分类

短文本转向量的一种实现方式

PyPI 官网下载 | mlpack3-3.4.2-cp36-cp36m-manylinux1_x86_64.whl

实现基于C++或者python基本库，初学学习之用.zip

机器学习的一些基础算法，主要使用Python、Cpp、Matlab编写。.zip

jenkins-conf:Jenkins的配置文件

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？