Transformer模型的结构是怎么搭起来的？自注意力和编码器-解码器各自起什么作用？

该提问与当前博客内容无直接关联。 Transformer 架构是自然语言处理领域的一项革命性模型，其核心在于完全摒弃了传统的循环神经网络（RNN）和卷积神经网络（CNN），转而依赖**自注意力机制（Self-Attention）** 来建立序列元素间的长距离依赖关系。其设计初衷是为了解决 RNN 在处理长序列时存在的梯度消失/爆炸和难以并行化训练的问题。一个标准的 Transformer 模型由**编码器（Encoder）** 和**解码器（Decoder）** 两部分堆叠而成，但在仅编码（如 BERT）或仅解码（如 GPT）的变体中，可能只使用其中一部分。 ### 1. 核心组件：自注意力机制自注意力机制是 Transformer 的灵魂，它允许序列中的每个位置（token）同时关注序列中所有其他位置的信息，并动态地为不同位置分配不同的重要性权重。其计算过程可分解为以下几步： 1. **线性变换**：对于输入序列的每个词嵌入向量，通过三个独立的权重矩阵 \(W^Q, W^K, W^V\) 分别投影得到查询（Query）、键（Key）和值（Value）向量。 2. **注意力得分计算**：计算 Query 与所有 Key 的点积，然后除以一个缩放因子（通常是 Key 向量维度的平方根），以防止点积结果过大导致 Softmax 梯度消失。 3. **归一化与加权求和**：对得分进行 Softmax 归一化，得到注意力权重，然后对 Value 向量进行加权求和，得到该位置的输出。其核心公式如下： \[ \text{Attention}(Q, K, V) = \text{softmax}(\frac{QK^T}{\sqrt{d_k}})V \] 为了增强模型的表征能力，Transformer 采用了**多头注意力机制（Multi-Head Attention）**。它将 Q、K、V 投影到多个子空间（即多个“头”），在每个头上并行执行注意力计算，最后将结果拼接并线性变换。这使得模型能够同时关注来自不同表示子空间的信息。 ```python # 多头自注意力机制的 PyTorch 简化实现 import torch import torch.nn as nn import torch.nn.functional as F class MultiHeadAttention(nn.Module): def __init__(self, d_model, num_heads): super().__init__() self.d_model = d_model self.num_heads = num_heads self.d_k = d_model // num_heads # 每个头的维度 # 线性投影层，用于生成 Q, K, V self.W_q = nn.Linear(d_model, d_model) self.W_k = nn.Linear(d_model, d_model) self.W_v = nn.Linear(d_model, d_model) self.W_o = nn.Linear(d_model, d_model) # 输出投影 def forward(self, x): batch_size, seq_len, d_model = x.shape # 生成 Q, K, V Q = self.W_q(x).view(batch_size, seq_len, self.num_heads, self.d_k).transpose(1, 2) K = self.W_k(x).view(batch_size, seq_len, self.num_heads, self.d_k).transpose(1, 2) V = self.W_v(x).view(batch_size, seq_len, self.num_heads, self.d_k).transpose(1, 2) # 计算缩放点积注意力 scores = torch.matmul(Q, K.transpose(-2, -1)) / (self.d_k ** 0.5) attn_weights = F.softmax(scores, dim=-1) context = torch.matmul(attn_weights, V) # 拼接多头结果并线性变换 context = context.transpose(1, 2).contiguous().view(batch_size, seq_len, d_model) output = self.W_o(context) return output ``` ### 2. 编码器与解码器的详细组成一个完整的 Transformer 模型由 N 个编码器层和 N 个解码器层堆叠而成（原论文中 N=6）。下表对比了编码器和解码器层的核心组件： | 组件 | 编码器层 (Encoder Layer) | 解码器层 (Decoder Layer) | 核心作用 | | :--- | :--- | :--- | :--- | | **子层1** | **多头自注意力层** (Masked? No) | **带掩码的多头自注意力层** (Masked? **Yes**) | 自注意力层用于捕捉序列内部依赖。解码器的第一层使用掩码，确保当前位置只能关注到它之前的位置，实现自回归预测。 | | **子层2** | **前馈神经网络层 (FFN)** | **编码器-解码器注意力层** | 编码器的 FFN 是一个两层的全连接网络，用于非线性变换。解码器的该层是交叉注意力层，其 Query 来自解码器，Key 和 Value 来自编码器的最终输出，用于建立编码与解码序列间的关联。 | | **子层3** | - | **前馈神经网络层 (FFN)** | 解码器的 FFN 与编码器相同，进行最终的特征变换。 | | **通用结构** | **残差连接与层归一化** | **残差连接与层归一化** | 每个子层后都接一个“Add & Norm”操作，即先进行残差连接，再进行层归一化。这极大缓解了深层网络的训练困难，是稳定训练的关键。 | **编码器**接收输入序列，经过嵌入层和位置编码后，输入到 N 个相同的编码器层中。每个编码器层内部首先通过多头自注意力处理序列，然后经过一个位置式前馈网络。所有子层都使用残差连接和层归一化。 **解码器**在训练和推理时行为不同。在训练时，解码器接收目标序列的右移版本（即前一时刻的真实标签），通过带掩码的自注意力确保当前位置无法“看到”未来的信息。然后，通过编码器-解码器注意力层融合编码器的上下文信息，最后通过 FFN 和线性分类层预测下一个词。在推理时，解码器是自回归的，逐个生成词元。 ### 3. 关键设计细节与变体 * **位置编码 (Positional Encoding)**：由于自注意力机制本身不具备感知序列顺序的能力，Transformer 通过向输入嵌入中添加位置编码来注入位置信息。原论文使用正弦和余弦函数生成固定的位置编码。后续研究也提出了可学习的位置编码。 ```python # 正弦位置编码的生成示例 def positional_encoding(seq_len, d_model): pe = torch.zeros(seq_len, d_model) position = torch.arange(0, seq_len).unsqueeze(1) div_term = torch.exp(torch.arange(0, d_model, 2) * -(math.log(10000.0) / d_model)) pe[:, 0::2] = torch.sin(position * div_term) pe[:, 1::2] = torch.cos(position * div_term) return pe # [seq_len, d_model] ``` * **前馈神经网络 (FFN)**：这是一个简单的两层全连接网络，中间使用 ReLU 激活函数。其公式为：\( \text{FFN}(x) = \max(0, xW_1 + b_1)W_2 + b_2 \)。它在每个位置独立地进行相同的变换。 * **层归一化 (LayerNorm) 与残差连接**：这是稳定深层 Transformer 训练的关键。在每个子层（自注意力、FFN）的输出上，先与子层输入进行残差相加，再经过层归一化。这有效地传递了梯度，缓解了梯度消失问题。 ### 4. 核心优势与应用场景 Transformer 的核心优势在于其**强大的长距离依赖建模能力**和**高度并行化的计算效率**。自注意力机制的计算复杂度与序列长度的平方成正比（\(O(n^2)\)），这在处理极长序列时是其主要瓶颈，但其完全并行的特性使其在 GPU 等硬件上训练速度远快于 RNN。基于 Transformer 的变体模型已统治了 NLP 乃至多模态领域： 1. **仅编码器模型 (Encoder-Only)**：如 **BERT**，通过掩码语言建模进行预训练，擅长理解任务（文本分类、命名实体识别、问答）。 2. **仅解码器模型 (Decoder-Only)**：如 **GPT 系列**，通过自回归语言建模进行预训练，擅长生成任务（文本生成、代码生成、对话）。 3. **编码器-解码器模型 (Encoder-Decoder)**：如 **T5、BART**，适用于序列到序列的任务（机器翻译、文本摘要、风格转换）。此外，Transformer 的思想也被成功迁移到计算机视觉（Vision Transformer）、音频处理等领域，证明了其作为一种通用序列建模框架的强大潜力。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python能做工业上位机吗？有哪些典型应用和关键技术？

目录

Transformer模型的结构是怎么搭起来的？自注意力和编码器-解码器各自起什么作用？

Python内容推荐

基于Transformer深度学习架构的日中双向机器翻译系统实现_包含完整预处理流程和模型训练代码_支持自定义语料库构建_使用PyTorch框架实现注意力机制和编码器-解码器结构_.zip

Transformer同样基于编码器-解码器架构

基于PyTorch深度学习框架实现的Transformer模型完整代码与详细教程_包含自注意力机制_多头注意力_位置编码_前馈网络_编码器解码器结构_序列到序列任务_机器翻译_文本.zip

Transformer：Seq2Seq 模型 + 自注意力机制.zip

编码器-解码器架构[项目源码]

基于Seq2seq模型和Transformer架构实现的字符级机器翻译系统_支持多种语言互译的深度学习翻译引擎_用于实现高精度字符级文本转换的AI工具_包含注意力机制编码器-解码.zip

基于Transformer架构的机器翻译模型实现_包含完整的数据预处理流程和模型训练代码_详细解析Transformer编码器解码器结构和自注意力机制_适用于自然语言处理任务如文本.zip

基于Transformer架构的NLP模型实现与详解项目_包含注意力机制多头自注意力位置编码残差连接层归一化前馈网络编码器解码器结构自回归训练掩码机制序列到序列学.zip

基于Keras深度学习框架实现的Transformer神经网络模型_包含完整的编码器解码器结构多头注意力机制位置编码层归一化残差连接_用于中英双语机器翻译任务支持文本生成和序列到序.zip

基于PyTorch框架实现的多中文注释详解版Transformer模型_包含完整编码器解码器结构多头注意力机制位置编码层归一化残差连接前馈网络_用于自然语言处理任务如机器翻译文本生.zip

一个基于Transformer架构的4000万参数英译中神经机器翻译模型_复现论文Attentionisallyouneed的完整实现_包含编码器解码器多头注意力机制位置编.zip

Transformer编码器与解码器注意力区别[项目代码]

自实现编解码器Transformer模型与自实现解码器Transformer模型的完整实践项目_包含类T5模型结构的完整实现_类GPT模型结构的完整实现_基于transformer.zip

基于PyTorch框架实现的Transformer模型完整接口_包含编码器解码器注意力机制位置编码层归一化残差连接多头注意力前馈网络_用于自然语言处理领域的序列到序列任务如机器翻译.zip

基于Transformer架构的端到端中文车牌识别模型_该项目实现了一个采用MobileNetV3作为骨干网络并结合Transformer编码器-解码器架构的深度学习模型专门用于.zip

基于PyTorch框架从零手写实现的Transformer中英文翻译模型_包含完整的多头注意力机制_前馈神经网络_位置编码_编码器和解码器组件实现_支持中英文句子对训练和推理_可用.zip

Transformer编码器与解码器解析[项目代码]

【自然语言处理】Transformer模型详解：自注意力机制与编码解码架构在机器翻译中的应用

基于Transformer架构的德语-英语神经机器翻译系统_深度学习自然语言处理机器翻译跨语言转换_实现高质量德语到英语自动翻译_Transformer多头注意力机制编码器解码器层.zip

Tech_Aarticle-Transformer模型实战项目

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？

桌面工具软件项目效益评估及市场预测分析

告别遮挡！UniApp中WebView与原生导航栏的和谐共处方案（附完整可运行代码）

OSPF是怎么在企业网里自动找最优路径并分区域管理的？

UML建模课程设计：图书馆管理系统论文