Transformer模型为什么完全不用RNN或CNN，而是靠注意力机制来处理序列？

Transformer模型架构是一种摒弃了传统循环神经网络（RNN）和卷积神经网络（CNN）依赖的、完全基于注意力机制的编码器-解码器结构。其核心设计旨在处理序列数据，尤其是在自然语言处理任务中实现高效的并行计算 [ref_1]。模型整体采用堆叠式的对称设计，主要分为编码器（Encoder）和解码器（Decoder）两大部分，两者均由N个（原文中N=6）结构相同但参数独立的层堆叠而成。输入序列首先通过词嵌入层（Embedding Layer）转换为向量表示，并与位置编码（Positional Encoding）相加，以注入序列的顺序信息 [ref_1]。 **编码器**的每一层包含两个核心子层： 1. **多头自注意力机制（Multi-Head Self-Attention）**：该层允许序列中的每个位置在编码时，同时关注并聚合输入序列中所有其他位置的信息。其运作基于“查询（Query）-键（Key）-值（Value）”的机制。具体而言，对于输入序列的每个词向量，通过线性变换生成对应的Q、K、V向量。通过计算Q与所有K的点积并缩放，再经Softmax归一化得到注意力权重，最后用此权重对V进行加权求和，得到该位置的上下文感知表示。多头机制并行执行多组这样的注意力计算，每一组关注输入信息的不同子空间，最后将各头的输出拼接并线性变换，以融合不同方面的注意力信息 [ref_1]。 2. **位置式前馈网络（Position-wise Feed-Forward Network， FFN）**：这是一个应用于每个位置上的独立、相同的前馈神经网络，通常由两个线性变换及中间的ReLU激活函数组成。其作用是对自注意力层的输出进行非线性变换和特征加工 [ref_1]。每个子层均采用“残差连接（Residual Connection）”和“层归一化（Layer Normalization）”的包围结构。即子层的输出会与输入相加，再进行归一化，这有助于缓解深层网络训练中的梯度消失问题，稳定训练过程 [ref_1]。 **解码器**在结构上与编码器类似，但包含三层： 1. **带掩码的多头自注意力层**：与编码器的自注意力层类似，但为防止解码时看到未来信息（即保证自回归性），在计算注意力权重时引入了序列掩码（Sequence Mask），将当前位置之后的所有位置屏蔽。 2. **编码器-解码器注意力层（多头注意力）**：这一层是解码器与编码器交互的关键。其Query来自解码器上一层的输出，而Key和Value则来自**编码器栈的最终输出**。这使得解码器在生成每一个词时，能够有选择地聚焦于输入序列中最相关的部分。 3. **位置式前馈网络**：与编码器中的FFN结构相同。解码器的最终输出会通过一个线性层和一个Softmax层，转换为目标词汇表上的概率分布，从而预测下一个词 [ref_1]。为了更清晰地对比编码器与解码器的结构差异，其核心组件对比如下： | 组件层级 | 编码器 (Encoder Layer) | 解码器 (Decoder Layer) | | :--- | :--- | :--- | | **子层1** | 多头自注意力 (Multi-Head Self-Attention) | **带掩码的**多头自注意力 (Masked Multi-Head Self-Attention) | | **子层2** | 位置式前馈网络 (Position-wise FFN) | 编码器-解码器注意力 (Encoder-Decoder Attention) | | **子层3** | - | 位置式前馈网络 (Position-wise FFN) | | **残差连接 & 层归一化** | 应用于每个子层之后 | 应用于每个子层之后 | | **输入来源** | 上一编码器输出（底层为词嵌入+位置编码） | 上一解码器输出（底层为输出词嵌入+位置编码）及**编码器最终输出** | 一个简化的、用于说明自注意力中Q、K、V矩阵计算的伪代码如下： ```python import torch import torch.nn.functional as F def scaled_dot_product_attention(Q, K, V, mask=None): """ Q: Query 矩阵，形状为 [batch_size, seq_len_q, d_k] K: Key 矩阵，形状为 [batch_size, seq_len_k, d_k] V: Value 矩阵，形状为 [batch_size, seq_len_v, d_v] (通常 seq_len_k == seq_len_v, d_k == d_v) mask: 可选的掩码矩阵 """ d_k = Q.size(-1) # Key向量的维度 # 1. 计算Q和K的点积，并缩放 scores = torch.matmul(Q, K.transpose(-2, -1)) / torch.sqrt(torch.tensor(d_k, dtype=torch.float32)) # 2. 可选：应用掩码（例如，将未来位置设为负无穷） if mask is not None: scores = scores.masked_fill(mask == 0, -1e9) # 3. 应用Softmax得到注意力权重 attention_weights = F.softmax(scores, dim=-1) # 4. 权重与V相乘，得到上下文向量 context = torch.matmul(attention_weights, V) return context, attention_weights # 示例：假设输入X是词嵌入后的结果 batch_size, seq_len, d_model = 2, 10, 512 d_k = d_v = 64 num_heads = 8 X = torch.randn(batch_size, seq_len, d_model) # 输入张量 # 为每个注意力头定义线性变换矩阵（实际中会并行处理） W_Q = torch.randn(d_model, d_k) W_K = torch.randn(d_model, d_k) W_V = torch.randn(d_model, d_v) # 计算单个注意力头的Q, K, V Q = torch.matmul(X, W_Q) # 形状: [batch_size, seq_len, d_k] K = torch.matmul(X, W_K) V = torch.matmul(X, W_V) # 计算自注意力 context_vector, attn_weights = scaled_dot_product_attention(Q, K, V) ``` 以上代码块演示了缩放点积注意力的核心计算步骤，这是构成多头注意力机制的基础单元 [ref_1]。整个架构通过这种完全基于注意力的设计，实现了对长距离依赖的高效建模和并行计算，成为现代大语言模型和众多序列处理任务的基石。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python f-string里{age:18d}的18d到底代表什么？为什么数字会靠右还带一堆空格？

目录

Transformer模型为什么完全不用RNN或CNN，而是靠注意力机制来处理序列？

Python内容推荐

【python AI大模型毕业设计】基于LangChain的RAG餐饮食谱(菜谱)助手智能问答系统(Flask+Vue3+Ollama+Chroma) 源码+论文+sql脚本 完整版

考虑电动汽车移动储能特性的多区域电网功率波动平抑优化调控研究（Python代码实现）

基于Transformer架构的注意力机制在时间序列预测领域的深度应用与优化实现项目_该项目专注于将先进的注意力机制特别是Transformer模型的核心组件如自注意力多头注意力机.zip

Transformer、RNN与CNN区别[项目源码]

深度学习自然语言处理-Transformer模型

人工智能里程碑论文: 基于注意力机制的序列转换模型Transformer介绍与应用研究

深度学习及神经网络练习代码项目_包含卷积神经网络CNN循环神经网络RNN长短时记忆网络LSTM生成对抗网络GAN变分自编码器VAE注意力机制Transformer等模型实现_用于学.zip

基于深度神经网络架构实现图像识别与自然语言处理任务的开源机器学习框架_包含卷积神经网络CNN循环神经网络RNN生成对抗网络GANTransformer注意力机制等模型实现并提供图像.zip

序列模型相关，分析cnn,rnn, self-attention模型在学习序列依赖的能力

【自然语言处理】基于自注意力机制的Transformer模型架构设计：机器翻译与成分句法分析中的高效并行化实现

Transformer的注意力机制.pdf

CNN、RNN、LSTM与Transformer优缺点分析[源码]

神经网络大作业：公式识别，两种模型（CNN+RNN ResNet+Transformer）

神经网络与深度学习习题解答与扩展学习资源库项目_神经网络基础理论深度学习模型推导反向传播算法详解卷积神经网络CNN循环神经网络RNN注意力机制Transformer.zip

深度学习神经网络算法分类与核心模型综述：CNN、RNN、GAN、Transformer及GNN在图像与序列任务中的应用解析

基于Transformer的自然语言处理模型综述.pdf

自注意力机制与Transformer[代码]

基于Keras深度学习框架实现的Transformer神经网络模型_包含完整的编码器解码器结构多头注意力机制位置编码层归一化残差连接_用于中英双语机器翻译任务支持文本生成和序列到序.zip

深度学习网络模型代码仓库_包含卷积神经网络CNN循环神经网络RNN生成对抗网络GAN变分自编码器VAE图神经网络GNN注意力机制Transformer残差网络ResNet密集连接网.zip

transformer-transformer

从零构建PHP网络安全渗透测试靶场：5大基础漏洞实战

基于YOLOv5的超声波肾脏结石智能检测系统

Calling-System-EXE Ver Green Ver

节能多无人机协同定位，实现通信和聚变拓扑的顺序优化.zip

基于C#+asp.net+sqlserver的网上书店系统设计与实现（源码+文档）_C#_asp.net_BS架构_网上书店系统.zip

构建智慧警务大数据平台：全面技术架构设计解析

保姆级教程：用Wireshark抓包分析DoIP协议（从车辆发现到诊断通信）

CAPWAP隧道是怎么在AP和AC之间建立并传输数据的？

2020年互联网大厂薪资职级深度解析

3分钟搞懂dB/dBm/dBV区别：从放大器增益到噪声测量的完整对照表

【python AI大模型毕业设计】基于LangChain的RAG餐饮食谱(菜谱)助手智能问答系统(Flask+Vue3+Ollama+Chroma) 源码+论文+sql脚本完整版