Transformer里每个词是怎么‘看到’句子里其他词的？

### 处理或生成每个Token与其他Token关系的方法为了理解并生成每个Token与序列中其他Token之间的关系，可以采用多种方法和技术。以下是几种常见的策略： #### 1. 使用注意力机制 (Attention Mechanism) 注意力机制是一种强大的工具，用于捕捉序列中不同位置之间的重要关联。通过计算查询向量(Query)、键向量(Key)和值向量(Value)，它可以动态地衡量任意两个Token之间的相互作用。具体来说，在Transformer架构中，自注意力(Self-Attention)层会为每一个输入Token生成一组权重，这些权重表示当前Token和其他所有Token的相关程度[^1]。这种相关性的计算通常基于点积相似度，并经过Softmax函数规范化得到最终的注意力分布。 ```python import torch import torch.nn as nn class SelfAttention(nn.Module): def __init__(self, embed_size, heads): super(SelfAttention, self).__init__() self.embed_size = embed_size self.heads = heads # 定义Q,K,V矩阵变换参数 self.values = nn.Linear(self.embed_size, self.embed_size, bias=False) self.keys = nn.Linear(self.embed_size, self.embed_size, bias=False) self.queries = nn.Linear(self.embed_size, self.embed_size, bias=False) def forward(self, query, key, value): N = query.shape[0] value_len, key_len, query_len = value.shape[1], key.shape[1], query.shape[1] values = self.values(value).reshape(N, value_len, self.heads, self.embed_size//self.heads) keys = self.keys(key).reshape(N, key_len, self.heads, self.embed_size//self.heads) queries = self.queries(query).reshape(N, query_len, self.heads, self.embed_size//self.heads) energy = torch.einsum("nqhd,nkhd->nhqk", [queries, keys]) attention = torch.softmax(energy / (self.embed_size ** (1/2)), dim=3) out = torch.einsum("nhql,nlhd->nqhd", [attention, values]).reshape( N, query_len, self.embed_size ) return out ``` 上述代码片段展示了一个简单的多头自注意力模块实现方式[^4]。它能够帮助我们了解各个Token在整个句子中的相对重要性和联系强度。 #### 2. 利用条件概率建模由于每一步新产生的Token都会受到之前已生成Tokens的影响，因此存在一种串行依赖关系[^3]。这意味着如果想要预测某个特定时刻t处的新词，则必须考虑前面已经出现过的全部历史信息{w₁,...wt₋₁}作为上下文背景来进行估计P(wₜ|w₁,…,wt₋₁). 这种方法可以通过RNN(LSTM/GRU), Transformer等神经网络结构来完成建模过程. #### 3. 计算Log Probability 和 KL Divergence 当涉及到强化学习或者优化目标设定时，我们需要评估整个序列的质量以及单个时间步上的表现差异。此时就可以借助log probability 来量化各阶段决策的好坏程度; 同时还可以引入KL divergence比较两套不同的模型输出结果间的距离大小. --- ###

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 WinForms里点关闭按钮时弹确认框，怎么确保整个程序真正退出而不是只关窗？

目录

Transformer里每个词是怎么‘看到’句子里其他词的？

Python内容推荐

微电网两阶段鲁棒优化经济调度方法（Python代码实现）

transformer详解

transformer网络结构详解PDF

Transformer 模型详解

Transformer详解.pptx

Transformer详解

Transformer解读.pdf

深度学习自然语言处理-Transformer模型.zip

Transformer深度讲解，进一步给出其在NLP和CV下的发展，共95页ppt，全网最好的讲解，没有之一

Transformer机器翻译数据集

词嵌入与Transformer解析[代码]

基于词向量使用Pytorch常规自编码器对句子进行向量表示与降维

LLM基础之Transformer模型简介.pdf

基于pytorch实现Transformer模型的最简洁方式源码+模型+详细注释+运行说明.zip

PyTorch实现基于Transformer的神经机器翻译

AI基础：图解Transformer.pdf

深度学习-Transformer实战系列

transformer.pdf

基于transformer的机器翻译实战数据集-英法双语

使用 Keras 和 tensorflow 实现的Transformer模型.zip

随机算法详解：概念、分类、性能分析与实例应用

Qt实战：用ListWidget和TableWidget快速搞定一个简易文件管理器界面

Spring Boot项目一启动就自动退出，可能是什么原因导致的？

PLC控制下的液体混合装置设计与实现

Parallels Desktop虚拟机USB设备无法识别？这个隐藏设置帮你搞定

双谱图上出现明显峰值，说明信号里存在什么非线性特征？

智慧城市建设的总体要求与目标架构解析

Linux内存回收机制：kswapd内核线程的唤醒条件与实战调优指南

用栈判断字符串是否为回文时，为什么只压入前半段字符？这样设计有什么逻辑依据？

人工高阶神经网络在经济学和金融领域的应用分析