Transformer为什么不用RNN或CNN，而是靠注意力机制来处理序列？

Transformer模型是一种完全基于注意力机制，摒弃了传统循环神经网络（RNN）和卷积神经网络（CNN）的序列到序列（Seq2Seq）深度学习架构。其核心优势在于能够高效并行处理序列数据，并有效捕获长距离依赖关系，已成为自然语言处理等领域的基石模型[ref_1][ref_6]。 ### **一、整体架构概览** Transformer采用经典的编码器-解码器（Encoder-Decoder）结构。其整体数据处理流程可以概括为：输入序列经过编码器层，其输出作为解码器的中间表示，解码器再结合自身的输入（通常是目标序列的起始标记或前一时刻输出）生成目标序列[ref_2][ref_3]。 | 组件 | 数量 | 核心功能 | 关键子模块 | | :--- | :--- | :--- | :--- | | **编码器 (Encoder)** | N个堆叠（原论文N=6） | 将输入序列（如源语言句子）编码为一系列蕴含上下文信息的连续表示。 | 多头自注意力层、前馈神经网络、残差连接与层归一化 | | **解码器 (Decoder)** | N个堆叠（原论文N=6） | 根据编码器的输出和已生成的部分目标序列，自回归地生成目标序列（如翻译结果）。 | **带掩码的**多头自注意力层、多头交叉注意力层、前馈神经网络、残差连接与层归一化 | ### **二、核心组件详解** #### **1. 输入表示：词嵌入与位置编码** 模型输入首先需要将离散的符号（如单词）转换为连续的向量。 * **词嵌入（Word Embedding）**：将每个单词映射到一个高维向量。通常通过一个可学习的查找表实现[ref_2][ref_4]。 * **位置编码（Positional Encoding）**：由于自注意力机制本身不具备序列顺序信息，必须显式注入位置信息。Transformer使用正弦和余弦函数来生成位置编码向量，并与词嵌入向量相加[ref_3][ref_5]。以下是位置编码的示例代码： ```python import torch import math def positional_encoding(max_seq_len, d_model): """ 生成正弦位置编码。 Args: max_seq_len (int): 最大序列长度。 d_model (int): 模型/词向量的维度。 Returns: pe (Tensor): 位置编码矩阵，形状为 [max_seq_len, d_model] """ pe = torch.zeros(max_seq_len, d_model) position = torch.arange(0, max_seq_len, dtype=torch.float).unsqueeze(1) # [max_seq_len, 1] div_term = torch.exp(torch.arange(0, d_model, 2).float() * -(math.log(10000.0) / d_model)) # 对偶数维使用正弦，奇数维使用余弦 pe[:, 0::2] = torch.sin(position * div_term) pe[:, 1::2] = torch.cos(position * div_term) return pe # [max_seq_len, d_model] # 示例：生成长度为10，维度为8的位置编码 pe = positional_encoding(10, 8) print(pe.shape) # 输出: torch.Size([10, 8]) ``` #### **2. 注意力机制（Attention）** 这是Transformer最核心的机制，其本质是计算一个查询（Query）与一组键（Key）-值（Value）对的匹配程度，并据此对值进行加权求和，从而聚焦于最相关的信息。 * **缩放点积注意力（Scaled Dot-Product Attention）**：计算效率高，是标准实现。 * **公式**：`Attention(Q, K, V) = softmax((Q * K^T) / sqrt(d_k)) * V` * 其中，`sqrt(d_k)` 用于缩放，防止点积结果过大导致softmax梯度消失[ref_1][ref_6]。 * **多头注意力（Multi-Head Attention）**：将模型拆分为多个“头”，每个头在不同的子空间学习不同的关注模式，最后将结果拼接并线性变换。这极大地增强了模型的表示能力[ref_1][ref_3]。 ```python import torch.nn as nn import torch.nn.functional as F import math class MultiHeadAttention(nn.Module): def __init__(self, d_model, num_heads): super(MultiHeadAttention, self).__init__() assert d_model % num_heads == 0, "d_model 必须能被 num_heads 整除" self.d_model = d_model self.num_heads = num_heads self.d_k = d_model // num_heads # 每个头的维度 # 定义线性变换层，用于生成Q, K, V self.W_q = nn.Linear(d_model, d_model) self.W_k = nn.Linear(d_model, d_model) self.W_v = nn.Linear(d_model, d_model) self.W_o = nn.Linear(d_model, d_model) # 输出层 def scaled_dot_product_attention(self, Q, K, V, mask=None): # Q, K, V 形状: [batch_size, num_heads, seq_len, d_k] attn_scores = torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(self.d_k) # [batch, head, seq_len, seq_len] if mask is not None: attn_scores = attn_scores.masked_fill(mask == 0, -1e9) # 将mask为0的位置填充为极小值 attn_probs = F.softmax(attn_scores, dim=-1) # 在最后一个维度（seq_len）上做softmax output = torch.matmul(attn_probs, V) # 加权求和 return output, attn_probs def forward(self, query, key, value, mask=None): batch_size = query.size(0) # 1. 线性投影并分头 Q = self.W_q(query).view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2) K = self.W_k(key).view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2) V = self.W_v(value).view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2) # 2. 计算缩放点积注意力 attn_output, attn_probs = self.scaled_dot_product_attention(Q, K, V, mask) # 3. 合并多头，将头维度拼接回原始模型维度 attn_output = attn_output.transpose(1, 2).contiguous().view(batch_size, -1, self.d_model) # 4. 最终线性投影 output = self.W_o(attn_output) return output, attn_probs ``` #### **3. 编码器层（Encoder Layer）** 每个编码器层包含两个主要子层： 1. **多头自注意力层**：输入序列中的每个位置都会关注输入序列的所有位置，从而建立全局依赖关系[ref_4]。 2. **前馈神经网络（Feed-Forward Network, FFN）**：一个简单的两层全连接网络，通常中间有ReLU激活函数。它在每个位置独立地进行非线性变换[ref_2][ref_4]。每个子层之后都采用**残差连接（Residual Connection）**和**层归一化（Layer Normalization）**，其公式为：`LayerNorm(x + Sublayer(x))`。这有助于缓解深层网络中的梯度消失问题，并稳定训练过程[ref_5]。 #### **4. 解码器层（Decoder Layer）** 每个解码器层包含三个主要子层，同样配有残差连接与层归一化： 1. **带掩码的多头自注意力层**：这是解码器的第一个子层。为了防止模型在训练时“偷看”未来的信息（即确保自回归特性），使用一个掩码矩阵（通常是上三角矩阵）来屏蔽当前时刻之后的所有位置[ref_3]。 2. **多头交叉注意力层**：第二个子层。其**Query**来自解码器第一子层的输出，而**Key**和**Value**来自**编码器最后的输出**。这使得解码器能够聚焦于源序列中最相关的部分[ref_2][ref_6]。 3. **前馈神经网络**：与编码器中的相同。 #### **5. 输出层** 解码器堆叠后的输出经过一个线性层和Softmax函数，将连续向量转换为目标词汇表上的概率分布，从而预测下一个单词[ref_3]。 ### **三、工作机制与应用实例** 以一个**机器翻译**任务（英译中）为例，说明Transformer的工作流程： 1. **输入处理**：英文句子 `"I love machine learning."` 经过词嵌入和位置编码，得到输入矩阵。 2. **编码阶段**：该矩阵经过6个（以原论文为例）相同的编码器层。在每一层的自注意力中，单词 `"learning"` 能够直接关联到 `"machine"`，无论它们相距多远。编码器输出一个包含完整英文句子上下文信息的表示矩阵。 3. **解码阶段**： * 解码器输入初始化为目标序列的开始标记 `<SOS>` 及其位置编码。 * 在第一个解码器层中，带掩码的自注意力层让 `<SOS>` 只能关注自身（未来位置被掩码）。 * 然后，交叉注意力层根据 `<SOS>` 这个Query，去编码器的输出（Key-Value对）中寻找相关信息，计算出上下文向量。 * 经过FFN和线性层后，模型输出第一个单词 `"我"` 的概率最高。 4. **自回归生成**：将预测出的 `"我"` 作为下一步解码器输入的一部分（与 `<SOS>` 拼接），重复步骤3，预测下一个单词 `"热爱"`，如此循环，直到生成结束标记 `<EOS>`，最终得到完整翻译 `"我热爱机器学习。"`。通过这种并行化的编码和自回归的解码，Transformer在保持强大建模能力的同时，训练速度远快于RNN，从而彻底改变了序列建模领域[ref_6]。其变体（如仅用编码器的BERT、仅用解码器的GPT系列）也在各类下游任务中取得了突破性成果。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 ArcGIS Pro和ArcMap对Python版本的支持有什么区别？

目录

Transformer为什么不用RNN或CNN，而是靠注意力机制来处理序列？

Python内容推荐

【Python编程】Python元类与动态类创建技术

【Python编程】Python虚拟环境与依赖管理方案

【Python编程】Python缓存策略与Redis集成实践

即将取代RNN结构的Transformer

Transformer、RNN与CNN区别[项目源码]

深度学习自然语言处理-Transformer模型

CNN、RNN、LSTM与Transformer优缺点分析[源码]

深度学习基础（人工神经网络、CNN、RNN、lstm）

神经网络与深度学习习题解答与扩展学习资源库项目_神经网络基础理论深度学习模型推导反向传播算法详解卷积神经网络CNN循环神经网络RNN注意力机制Transformer.zip

人工智能里程碑论文: 基于注意力机制的序列转换模型Transformer介绍与应用研究

transformer代码复现 +数据集可以直接运行

基于PyTorch框架实现的LaTeX公式图像识别与转换系统_深度学习_图像处理_自然语言处理_序列到序列模型_注意力机制_卷积神经网络_循环神经网络_Transformer_数据.zip

3.Transformer模型原理详解.pdf

序列模型相关，分析cnn,rnn, self-attention模型在学习序列依赖的能力

全面拥抱Transformer

全面综述：循环神经网络进展

transformer分类代码

过拟合欠拟合及其解决方案；梯度消失梯度爆炸；循环神经网络进阶；机器翻译及相关技术；注意力机制与Seq2seq模型；Transformer；卷积神经网络基础；leNet；卷积神经网络进阶

基于 CNN+RNN 与 ResNet+Transformer 的公式识别研究

自注意力机制与Transformer[代码]

PyPI 官网下载 | mlpack3-3.4.2-cp36-cp36m-manylinux1_x86_64.whl

实现基于C++或者python基本库，初学学习之用.zip

机器学习的一些基础算法，主要使用Python、Cpp、Matlab编写。.zip

jenkins-conf:Jenkins的配置文件

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？