Transformer模型为什么不用RNN或CNN，它的核心模块各自起什么作用？

当前博文未提及该问题，以下是基于C知道的知识内容为您回答 Transformer模型是一种基于注意力机制的深度神经网络架构，由Vaswani等人在2017年的论文《Attention Is All You Need》中提出。它彻底摒弃了循环神经网络（RNN）和卷积神经网络（CNN）的递归或卷积结构，完全依赖自注意力机制（Self-Attention）来处理序列数据，在机器翻译、文本生成等自然语言处理任务上取得了突破性成果[ref_2]。其核心思想是：通过自注意力机制，模型能够并行计算序列中任意两个位置之间的关系权重，从而捕捉长距离依赖。这使得Transformer在处理长序列时比RNN更具效率，并且通过多头注意力（Multi-Head Attention）机制从不同子空间捕获信息，增强了模型的表达能力[ref_2]。 ### **Transformer 核心模块详解** 一个标准的Transformer模型主要由**编码器（Encoder）** 和**解码器（Decoder）** 堆叠而成。其核心模块可以归纳为以下几个部分： | 模块名称 | 主要功能 | 核心组成 | | :--- | :--- | :--- | | **嵌入层 (Embedding Layer)** | 将输入的词元（Token）转换为稠密向量表示。 | 词嵌入 (Token Embedding) + 位置编码 (Positional Encoding) | | **编码器层 (Encoder Layer)** | 对输入序列进行特征提取和编码。 | 多头自注意力层 (Multi-Head Self-Attention) + 前馈神经网络层 (Feed-Forward Network) + 残差连接 & 层归一化 (Add & Norm) | | **解码器层 (Decoder Layer)** | 基于编码器输出和已生成的部分序列，生成下一个词元。 | 掩码多头自注意力层 (Masked Multi-Head Self-Attention) + 编码器-解码器注意力层 (Encoder-Decoder Attention) + 前馈神经网络层 + 残差连接 & 层归一化 | | **前馈神经网络 (FFN)** | 对每个位置的表示进行非线性变换，增强模型表达能力。 | 两个线性变换层，中间使用ReLU激活函数[ref_3]。 | | **输出层 (Output Layer)** | 将解码器输出的向量映射为词汇表上的概率分布。 | 线性层 + Softmax函数 | ### **1. 嵌入层与位置编码** 由于Transformer没有循环或卷积结构，无法感知序列的顺序信息，因此必须显式地注入位置信息。 ```python import torch import torch.nn as nn import math class Embeddings(nn.Module): def __init__(self, d_model, vocab_size): super(Embeddings, self).__init__() self.lut = nn.Embedding(vocab_size, d_model) # 词嵌入层 [ref_6] self.d_model = d_model def forward(self, x): return self.lut(x) * math.sqrt(self.d_model) # 缩放操作，稳定训练[ref_6] class PositionalEncoding(nn.Module): def __init__(self, d_model, dropout, max_len=5000): super(PositionalEncoding, self).__init__() self.dropout = nn.Dropout(p=dropout) pe = torch.zeros(max_len, d_model) position = torch.arange(0, max_len).unsqueeze(1) # 使用正弦和余弦函数生成位置编码[ref_2][ref_6] div_term = torch.exp(torch.arange(0, d_model, 2) * -(math.log(10000.0) / d_model)) pe[:, 0::2] = torch.sin(position * div_term) pe[:, 1::2] = torch.cos(position * div_term) pe = pe.unsqueeze(0) self.register_buffer('pe', pe) def forward(self, x): # 将位置编码加到词嵌入上 x = x + self.pe[:, :x.size(1)].requires_grad_(False) return self.dropout(x) ``` ### **2. 注意力机制（核心）** **缩放点积注意力（Scaled Dot-Product Attention）** 是注意力机制的基础单元[ref_6]。 ```python def attention(query, key, value, mask=None, dropout=None): d_k = query.size(-1) scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(d_k) # 缩放操作[ref_6] if mask is not None: scores = scores.masked_fill(mask == 0, -1e9) p_attn = scores.softmax(dim=-1) if dropout is not None: p_attn = dropout(p_attn) return torch.matmul(p_attn, value), p_attn ``` **多头注意力（Multi-Head Attention）** 将输入线性投影到多个子空间，并行执行注意力计算，最后将结果拼接并投影回原维度[ref_2][ref_3]。 ```python class MultiHeadedAttention(nn.Module): def __init__(self, h, d_model, dropout=0.1): super(MultiHeadedAttention, self).__init__() assert d_model % h == 0 self.d_k = d_model // h self.h = h # 定义Q, K, V和最终输出的线性变换层[ref_6] self.linears = clones(nn.Linear(d_model, d_model), 4) self.attn = None self.dropout = nn.Dropout(p=dropout) def forward(self, query, key, value, mask=None): if mask is not None: mask = mask.unsqueeze(1) nbatches = query.size(0) # 1) 线性投影并分头 query, key, value = [ lin(x).view(nbatches, -1, self.h, self.d_k).transpose(1, 2) for lin, x in zip(self.linears, (query, key, value)) ] # 2) 在每个头上应用注意力 x, self.attn = attention(query, key, value, mask=mask, dropout=self.dropout) # 3) 拼接多头结果并做最终投影 x = x.transpose(1, 2).contiguous().view(nbatches, -1, self.h * self.d_k) return self.linears[-1](x) ``` ### **3. 前馈神经网络（FFN）与残差连接** 每个注意力层后都接一个前馈神经网络，它对序列中每个位置的表示独立地进行相同的非线性变换[ref_2]。 ```python class PositionwiseFeedForward(nn.Module): def __init__(self, d_model, d_ff, dropout=0.1): super(PositionwiseFeedForward, self).__init__() self.w_1 = nn.Linear(d_model, d_ff) self.w_2 = nn.Linear(d_ff, d_model) self.dropout = nn.Dropout(dropout) def forward(self, x): # 第一层线性变换 + ReLU激活 + Dropout，第二层线性变换[ref_3] return self.w_2(self.dropout(self.w_1(x).relu())) ``` **残差连接（Add）和层归一化（Norm）** 被应用于每个子层（自注意力层和前馈层）之后，这是稳定深层网络训练的关键技术[ref_2]。 ```python class SublayerConnection(nn.Module): def __init__(self, size, dropout): super(SublayerConnection, self).__init__() self.norm = nn.LayerNorm(size) # 层归一化[ref_2] self.dropout = nn.Dropout(dropout) def forward(self, x, sublayer): # 残差连接： x + Dropout(Sublayer(LayerNorm(x))) [ref_6] return x + self.dropout(sublayer(self.norm(x))) ``` ### **4. 编码器与解码器** **编码器层** 由上述的多头自注意力和前馈网络子层构成[ref_2]。 **解码器层** 则更为复杂，包含三个子层： 1. **掩码多头自注意力层**：确保解码器在生成当前位置的输出时，只能“看到”之前已生成的序列，这是通过一个上三角掩码矩阵实现的[ref_6]。 2. **编码器-解码器注意力层**：其Query来自解码器的上一子层输出，而Key和Value来自编码器的最终输出。这使得解码器可以聚焦于输入序列的相关部分[ref_2]。 3. **前馈神经网络层**。 ### **应用与变体** Transformer不仅在NLP领域大放异彩，其思想也被成功迁移到计算机视觉领域。例如，**Vision Transformer (ViT)** 将图像分割成多个图像块（Patch），将这些块视为一个序列，然后直接应用标准的Transformer编码器进行图像分类，在许多任务上媲美甚至超越了CNN[ref_5]。**DETR（Detection Transformer）** 则利用Transformer的编码器-解码器架构，将目标检测建模为一个集合预测问题，实现了端到端的目标检测，无需复杂的手工设计组件（如非极大值抑制NMS）[ref_5]。此外，还有**Swin Transformer** 通过引入层次化设计和滑动窗口注意力，以及**Deformable Attention Transformer** 通过可变形注意力机制来降低计算复杂度并提升对不规则目标的建模能力[ref_4]。PyTorch等深度学习框架也提供了`torch.nn.Transformer`等高级API，方便用户快速构建和实验[ref_3]。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 PlatformIO里擦除Flash和调用lfs_format，到底是不是一回事？

目录

Transformer模型为什么不用RNN或CNN，它的核心模块各自起什么作用？

Python内容推荐

即将取代RNN结构的Transformer

Transformer、RNN与CNN区别[项目源码]

transformer模型详解

CNN、RNN、LSTM与Transformer优缺点分析[源码]

3.Transformer模型原理详解.pdf

深度学习自然语言处理-Transformer模型

神经网络与深度学习习题解答与扩展学习资源库项目_神经网络基础理论深度学习模型推导反向传播算法详解卷积神经网络CNN循环神经网络RNN注意力机制Transformer.zip

深度学习基础（人工神经网络、CNN、RNN、lstm）

神经网络作业：公式识别，两种模型（CNN+RNN ResNet+Transformer）-深度学习.zip

深度学习神经网络算法分类与核心模型综述：CNN、RNN、GAN、Transformer及GNN在图像与序列任务中的应用解析

序列模型相关，分析cnn,rnn, self-attention模型在学习序列依赖的能力

基于 CNN+RNN 与 ResNet+Transformer 的公式识别研究

全面拥抱Transformer

全面综述：循环神经网络进展

Transformer-BiGRU、Transformer、CNN-BiGRU、BiGRU、CNN五模型多变量时序预测.docx.rar

神经网络大作业：公式识别，两种模型（CNN+RNN ResNet+Transformer）

动手学习深度学习复现经典的神经网络模型从基础到前沿涵盖线性神经网络softmax回归多层感知机循环神经网络卷积神经网络Transformer架构及BERT等核心模型.zip

Transformer (Google 机器翻译模型)

深度学习课程作业与项目实践资源库_包含神经网络基础理论讲解卷积神经网络CNN循环神经网络RNN长短期记忆网络LSTM生成对抗网络GANTransformer架构自注意力.zip

基于PyTorch的动态计算图和神经网络框架（MLP、CNN、RNN、Transformer）

VS2022配置OpenCV[源码]

opencv4.7.0用VS2022编译的debug和release库

OpenCV源码阅读教程[项目代码]

编译GPU加速OpenCV[可运行源码]

OpenCV4.8+CUDA编译教程[源码]

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构