Transformer为什么不用RNN也能理解语序和长距离依赖？

Transformer模型的核心架构可以概括为三个关键点：**自注意力机制**、**位置编码**和**前馈神经网络**。这三个组件共同构成了Transformer处理序列数据的强大能力，并在编码器-解码器结构中协同工作。 ### **1. 自注意力机制 (Self-Attention)** 自注意力机制是Transformer的基石，它允许模型在处理序列时，动态地关注输入序列中不同位置的信息，从而捕捉长距离依赖关系。 * **核心思想**：对于序列中的每个元素（例如一个单词），计算它与序列中所有元素（包括自身）的关联度（注意力分数），然后基于这些分数对所有元素的值进行加权求和，得到该元素的新表示。这使得每个位置的输出都包含了全局上下文信息。 * **计算过程**：输入序列的每个词嵌入向量会通过线性变换生成三个向量：查询向量 (**Q**)、键向量 (**K**) 和值向量 (**V**)。注意力分数通过 **Q** 和 **K** 的点积计算，再经过缩放和Softmax归一化，最后加权求和 **V** 得到输出。公式如下： **Attention(Q, K, V) = softmax( (QK^T) / √d_k ) V** 其中 `d_k` 是键向量的维度，缩放因子 `√d_k` 用于防止点积结果过大导致梯度消失[ref_6]。 * **多头注意力 (Multi-Head Attention)**：为了增强模型捕捉不同子空间信息的能力，Transformer将自注意力机制并行执行多次（即多个“头”）。每个头使用不同的、可学习的线性投影矩阵将输入映射到不同的子空间，独立计算注意力。最后，所有头的输出被拼接起来，再经过一次线性变换得到最终输出。这使得模型可以同时关注来自不同表示子空间的信息[ref_3][ref_6]。 ```python import torch import torch.nn as nn import torch.nn.functional as F import math def attention(query, key, value, mask=None, dropout=None): """ 计算缩放点积注意力 [ref_1] 参数说明: query, key, value: 形状为 [batch_size, seq_len, d_model] mask: 可选，用于屏蔽某些位置（如填充位置或未来信息） """ d_k = query.size(-1) scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(d_k) # 计算点积并缩放 if mask is not None: scores = scores.masked_fill(mask == 0, -1e9) # 将mask为0的位置置为负无穷 p_attn = F.softmax(scores, dim=-1) # 在最后一个维度（键序列维度）做Softmax if dropout is not None: p_attn = dropout(p_attn) return torch.matmul(p_attn, value), p_attn # 返回加权和后的值及注意力权重 class MultiHeadedAttention(nn.Module): """多头注意力机制实现 [ref_1]""" def __init__(self, h, d_model, dropout=0.1): super(MultiHeadedAttention, self).__init__() assert d_model % h == 0 # 确保模型维度能被头数整除 self.d_k = d_model // h # 每个头的维度 self.h = h # 头数 self.linears = clones(nn.Linear(d_model, d_model), 4) # 4个线性层用于Q,K,V和最终输出投影 self.attn = None self.dropout = nn.Dropout(p=dropout) def forward(self, query, key, value, mask=None): if mask is not None: mask = mask.unsqueeze(1) # 为所有头增加一个维度 nbatches = query.size(0) # 1) 线性投影并重塑为多头: [batch, seq_len, d_model] -> [batch, h, seq_len, d_k] query, key, value = [ lin(x).view(nbatches, -1, self.h, self.d_k).transpose(1, 2) for lin, x in zip(self.linears, (query, key, value)) ] # 2) 在所有投影的版本上应用注意力 x, self.attn = attention(query, key, value, mask=mask, dropout=self.dropout) # 3) 合并多头输出: [batch, h, seq_len, d_k] -> [batch, seq_len, d_model] x = x.transpose(1, 2).contiguous().view(nbatches, -1, self.h * self.d_k) return self.linears[-1](x) # 最后的线性投影 ``` **应用场景**：在编码器中，自注意力层让每个词可以关注输入序列的所有词，学习上下文表示。在解码器中，使用了**掩码自注意力**，确保当前位置只能关注到之前的位置（防止信息泄露），以及**编码器-解码器注意力**层，让解码器关注编码器的输出[ref_6]。 ### **2. 位置编码 (Positional Encoding)** 由于自注意力机制本身是置换不变的（即不关心输入的顺序），Transformer必须显式地注入序列的顺序信息。这是通过**位置编码**实现的。 * **作用**：为输入序列中的每个词嵌入添加一个表示其位置信息的向量。这样，模型就能区分“猫追老鼠”和“老鼠追猫”的不同。 * **实现方式**：Transformer使用固定公式的正弦和余弦函数来生成位置编码向量 `PE(pos, 2i)` 和 `PE(pos, 2i+1)`，其中 `pos` 是位置，`i` 是维度索引。这种正弦函数的形式可以让模型轻松学习到相对位置关系[ref_1][ref_3]。 ```python class PositionalEncoding(nn.Module): """实现位置编码功能 [ref_1]""" def __init__(self, d_model, dropout, max_len=5000): super(PositionalEncoding, self).__init__() self.dropout = nn.Dropout(p=dropout) # 计算位置编码矩阵PE pe = torch.zeros(max_len, d_model) position = torch.arange(0., max_len).unsqueeze(1) # 位置列向量 [max_len, 1] # 计算除数项，用于生成不同频率的正弦波 div_term = torch.exp(torch.arange(0., d_model, 2) * -(math.log(10000.0) / d_model)) pe[:, 0::2] = torch.sin(position * div_term) # 偶数维度用sin pe[:, 1::2] = torch.cos(position * div_term) # 奇数维度用cos pe = pe.unsqueeze(0) # 增加batch维度 -> [1, max_len, d_model] self.register_buffer('pe', pe) # 注册为缓冲区，不参与训练 def forward(self, x): # 将位置编码加到输入x上，x形状为 [batch, seq_len, d_model] x = x + Variable(self.pe[:, :x.size(1)], requires_grad=False) return self.dropout(x) ``` **变体与发展**：除了正弦编码，后续研究也提出了可学习的位置编码（如BERT）、相对位置编码（如T5、RoPE）等。在视觉Transformer中，位置信息也至关重要，例如通过可学习的1D或2D位置编码来标识图像块的位置[ref_5]。 ### **3. 前馈神经网络 (Feed-Forward Network, FFN)** 在自注意力层之后，每个位置都会独立地经过一个前馈神经网络。这是一个应用于每个位置的点式（position-wise）全连接层。 * **结构**：通常由两个线性变换和一个非线性激活函数（如ReLU）组成，中间有一个膨胀维度（例如，`d_model=512` -> `d_ff=2048` -> `d_model=512`）。这为模型引入了非线性变换能力，增强了其表示能力[ref_1][ref_6]。 * **特点**：FFN对序列中的每个位置进行**独立且相同**的处理。这意味着不同位置之间在FFN层没有信息交互，所有的交互已在之前的自注意力层完成。 ```python class PositionwiseFeedForward(nn.Module): """实现FFN函数 [ref_1]""" def __init__(self, d_model, d_ff, dropout=0.1): super(PositionwiseFeedForward, self).__init__() self.w_1 = nn.Linear(d_model, d_ff) # 第一个线性层，扩大维度 self.w_2 = nn.Linear(d_ff, d_model) # 第二个线性层，恢复维度 self.dropout = nn.Dropout(dropout) def forward(self, x): # 应用第一个线性层 -> ReLU激活 -> Dropout -> 第二个线性层 return self.w_2(self.dropout(F.relu(self.w_1(x)))) ``` ### **三大关键点的协同工作与架构支撑** 这三个关键点并非孤立存在，它们被精心组织在Transformer的编码器层和解码器层中，并通过**残差连接**和**层归一化**进行优化，构成了完整的模型架构。 | 组件 | 在编码器层中的角色 | 在解码器层中的角色 | 关键支撑技术 | | :--- | :--- | :--- | :--- | | **自注意力机制** | **多头自注意力层**：学习输入序列内部的依赖关系。 | **1. 掩码多头自注意力层**：学习已生成输出序列内部的依赖（防止看到未来信息）。<br>**2. 编码器-解码器注意力层**：学习输出与输入序列之间的对齐关系。 | **残差连接**：将子层（如注意力、FFN）的输入直接加到其输出上，缓解梯度消失，公式为 `LayerNorm(x + Sublayer(x))`[ref_1][ref_6]。 | | **前馈神经网络** | **FFN层**：对自注意力层的输出进行非线性变换和增强表示。 | **FFN层**：对编码器-解码器注意力层的输出进行非线性变换。 | **层归一化**：应用于每个子层（注意力、FFN）的输出之后，稳定训练过程，加速收敛[ref_1]。 | | **位置编码** | 在输入嵌入后直接添加，为整个模型提供顺序信息。 | 同编码器，在目标序列嵌入后添加。 | **Add & Norm**：残差连接和层归一化通常合并为一个模块（SublayerConnection），是每个子层的标准操作[ref_1]。 | **总结**：Transformer的核心创新在于用**自注意力机制**完全替代了RNN的循环结构，实现了高效的并行计算和强大的长程依赖捕捉能力。**位置编码**弥补了自注意力机制对顺序不敏感的缺陷。而**前馈神经网络**则为每个位置的表示增加了非线性变换和容量。这三者通过残差连接和层归一化有机结合起来，构成了可堆叠的编码器-解码器模块，奠定了现代大语言模型（如GPT、BERT）以及扩散Transformer（DiT）[ref_5]、视觉Transformer等众多衍生模型的基础架构[ref_3][ref_4][ref_6]。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 HFSS里有没有类似Python控制台的交互式命令窗口？怎么打开和使用？

目录

Transformer为什么不用RNN也能理解语序和长距离依赖？

Python内容推荐

基于 RNN、Transformer、Bert 和 GPT2 的对话系统_聊天机器人_python_代码_下载

【信号处理与深度学习融合】项目介绍 Python实现基于VMD-NRBO-Transformer-RNN变分模态分解（VMD）结合牛顿-拉夫逊优化算法（NRBO）优化Transformer-RNN模型

【新能源电力预测】Python实现基于VMD-NRBO-Transformer-RNN变分模态分解（VMD）结合牛顿-拉夫逊优化算法（NRBO）优化Transformer-RNN模型多变量时间序列光伏

【AI视频处理】基于openClaw的Python脚本开发：Seedance 2.0分段视频无损自动合并系统实现

Transformer与长距离依赖[源码]

Transformer：长距离依赖的终结者

从RNN到Attention到Transformer系列-Transformer介绍及代码实现

谷歌提出 RNN 版 Transformer，或为长文本建模的当前最优解.rar

RNN与Transformer对比[项目源码]

Transformer、RNN与CNN区别[项目源码]

深度学习RNN 经典论文69篇，包含LSTM应用，LSTM综述，RNN应用，RNN综述

针对超长文本与文档篇章级分类解决长距离依赖问题的方案

基于LSTM和Transformer模型的时序预测实践源码

Transformer Model: Attention without RNN

即将取代RNN结构的Transformer

transformer-transformer

从RNN到Attention到Transformer系列-Attention介绍及代码实现

谷歌提出 RNN 版 Transformer，或为长文本建模的当前最优解.pdf

MATLAB实现基于VMD-NRBO-Transformer-RNN变分模态分解（VMD）结合牛顿-拉夫逊优化算法（NRBO）优化Transformer-RNN模型多变量时间序列预测的详细项目实例（含

Transformer-transformer

八爪鱼拉拉手益智类儿童手机游戏源码

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？

桌面工具软件项目效益评估及市场预测分析

告别遮挡！UniApp中WebView与原生导航栏的和谐共处方案（附完整可运行代码）

OSPF是怎么在企业网里自动找最优路径并分区域管理的？