Transformer解码器的第三阶段——前馈网络，为什么非得放在最后？

Transformer解码器的工作流程可以结构化地分为三个阶段，每个阶段都通过特定的注意力机制和前馈网络实现信息的整合与转换。以下是其核心三阶段的技术原理与实现方法详解。 ### **解码器三阶段技术原理详解** Transformer解码器的每一层（Layer）都严格遵循三个阶段处理其输入，以自回归方式生成目标序列。其数据处理流程如下图所示： ```mermaid flowchart TD A[“输入: 已生成目标序列 + 位置编码”] --> B[“阶段一: 掩码多头自注意力”] B --> C[“阶段二: 多头交叉注意力”] C --> D[“阶段三: 前馈神经网络”] D --> E[“输出: 当前词的高维表示”] F[“编码器输出: 源序列语义表示”] --> C B -- “核心作用: 确保自回归特性， 防止信息泄露” --> B C -- “核心作用: 对齐源与目标信息， 实现条件生成” --> C D -- “核心作用: 非线性变换， 增强模型表达能力” --> D ``` #### **阶段一：掩码多头自注意力 (Masked Multi-Head Self-Attention)** 此阶段是解码器实现**自回归生成**的关键，确保在生成当前词时，只能“看到”已经生成的词，而不能“偷看”未来的词[ref_2]。 * **技术原理**： 1. **自注意力计算**：解码器计算当前序列中每个词对所有词的注意力分数，以捕捉目标序列内部的依赖关系，例如语法结构和语义连贯性。 2. **掩码操作**：通过应用一个下三角矩阵（主对角线及以下为0，以上为负无穷大）到注意力分数矩阵上，未来位置的分数在Softmax前被设置为负无穷，从而使其权重为0。这保证了位置`i`的词只与位置`1`到`i`的词相关[ref_2]。 3. **多头机制**：将注意力分散到多个“头”，每个头在不同的子空间学习不同类型的依赖关系（如近距离语法依赖、远距离语义指代），最后将各头的输出拼接并线性变换，形成更丰富的综合表示[ref_1]。 * **伪代码示例**： ```python import torch import torch.nn.functional as F def masked_self_attention(Q, K, V, mask): """ Q, K, V: 查询、键、值矩阵，形状为 (batch_size, seq_len, d_model) mask: 下三角掩码矩阵，形状为 (seq_len, seq_len) """ d_k = Q.size(-1) scores = torch.matmul(Q, K.transpose(-2, -1)) / torch.sqrt(torch.tensor(d_k)) # 计算注意力分数 scores = scores.masked_fill(mask == 0, -1e9) # 应用掩码，未来位置置为负无穷 attn_weights = F.softmax(scores, dim=-1) # 归一化得到注意力权重 output = torch.matmul(attn_weights, V) # 加权求和得到输出 return output, attn_weights # 多头注意力即并行执行多个上述过程，然后合并结果。 ``` #### **阶段二：多头交叉注意力 (Multi-Head Cross-Attention)** 此阶段是**连接编码器与解码器的桥梁**，使解码器在生成目标词时，能够动态地、有选择地聚焦于源序列中最相关的部分[ref_1][ref_2]。 * **技术原理**： 1. **查询-键-值来源**：此阶段的**查询向量**来自解码器上一阶段的输出（即经过掩码自注意力处理后的目标序列表示）。而**键向量和值向量**则来自**编码器的最终输出**（即源序列的语义表示）[ref_1]。 2. **对齐与聚焦**：通过计算解码器查询与编码器键的相似度，模型学习源语言与目标语言之间的对齐关系。例如，在生成中文词“爱”时，交叉注意力权重会高度集中在源英文词“love”上[ref_1]。 3. **信息注入**：根据计算出的注意力权重，对编码器的值向量进行加权求和，并将这个融合了源语言信息的上下文向量传递给后续网络。这使得解码器的生成过程是基于对源信息的深度理解进行的[ref_2]。 * **伪代码示例**： ```python def cross_attention(decoder_Q, encoder_K, encoder_V): """ decoder_Q: 来自解码器的查询，形状 (batch_size, tgt_len, d_model) encoder_K, encoder_V: 来自编码器的键和值，形状 (batch_size, src_len, d_model) """ d_k = decoder_Q.size(-1) scores = torch.matmul(decoder_Q, encoder_K.transpose(-2, -1)) / torch.sqrt(torch.tensor(d_k)) attn_weights = F.softmax(scores, dim=-1) # 解码器到编码器的注意力权重 context = torch.matmul(attn_weights, encoder_V) # 获取与当前生成相关的源上下文 return context, attn_weights ``` #### **阶段三：前馈神经网络 (Position-wise Feed-Forward Network)** 这是一个独立、相同地应用于每个位置上的子网络，用于对前两个阶段整合的信息进行非线性变换和特征提炼[ref_1]。 * **技术原理**： 1. **结构**：通常由两个线性变换和一个中间的非线性激活函数（如ReLU）组成，即 `FFN(x) = max(0, xW1 + b1)W2 + b2`。虽然每个位置的处理相同，但参数是共享的[ref_1]。 2. **作用**：自注意力和交叉注意力本质上是线性加权求和。前馈网络通过非线性激活函数，为模型引入了**非线性变换能力**，使其能够学习更复杂的功能和模式，极大地增强了模型的表达能力[ref_1]。 3. **位置独立性**：由于自注意力机制已经显式地编码了位置信息，前馈网络可以平等地处理每个位置的向量，简化了设计并保持了并行性。 ### **三阶段的协同工作流程与实现要点** 1. **残差连接与层归一化**：每个阶段（注意力或前馈网络）的输出都会与输入进行**残差连接**，然后进行**层归一化**。这有助于缓解深层网络中的梯度消失问题，稳定训练过程[ref_1]。公式可表示为：`LayerOutput = LayerNorm(x + Sublayer(x))`。 2. **堆叠多层**：上述三个阶段构成解码器的一个基本层。实际模型（如原始Transformer）会堆叠`N`个（如6个）这样的解码器层，使模型能够逐层深化对目标序列生成和源-目标对齐的理解[ref_2]。 3. **最终输出**：经过所有解码器层后，顶层的输出向量会通过一个线性层（通常称为输出投影层）和一个Softmax函数，转换为目标词汇表上的概率分布，从而预测下一个词[ref_2]。 **总结对比表**： | 阶段 | 核心输入 | 核心输出 | 主要功能 | 关键技术 | | :--- | :--- | :--- | :--- | :--- | | **阶段一** | 已生成目标序列的嵌入表示 | 融合了目标序列内部依赖的表示 | 确保自回归生成，捕捉目标端上下文 | 掩码多头自注意力 | | **阶段二** | 阶段一的输出（作为Q） 编码器输出（作为K, V） | 融合了源序列相关信息的上下文向量 | 实现源-目标信息对齐，条件生成 | 多头交叉注意力 | | **阶段三** | 阶段二的输出（经残差&归一化） | 经过非线性变换的特征表示 | 增强模型非线性表达能力 | 位置级前馈神经网络 | 这三个阶段在每一层中顺序执行，并通过残差连接和层归一化紧密耦合，共同构成了Transformer解码器强大的序列生成能力，使其成为机器翻译、文本摘要等序列到序列任务的基石[ref_1][ref_2]。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇断网时Python能import哪些包？是不是只要没联网就肯定报错？

目录

Transformer解码器的第三阶段——前馈网络，为什么非得放在最后？

Python内容推荐

Python-Transformer的一个TensorFlow实现

Python-PyTorch实现基于Transformer的神经机器翻译

transformer和ViT Transformer组会汇报ppt

用Pytorch实现Transformer

transformer代码复现 +数据集可以直接运行

Transformer同样基于编码器-解码器架构

transformer代码

Transformer解码器详解[项目源码]

图解Transformer解码器[源码]

Transformer详解.pptx

PyTorch实现基于Transformer的神经机器翻译

Transformer深度讲解，进一步给出其在NLP和CV下的发展，共95页ppt，全网最好的讲解，没有之一

一个简化的 Transformer 编码器（Encoder）和解码器（Decoder）的 PyTorch 代码示例

Transformer解码器详解[项目代码]

Transformer编码器与解码器解析[项目代码]

大白话Transformer结构-从此爱上Transformer

AI基础：图解Transformer.pdf

Transformer-Tensorflow2：用于分类的Transformer架构

BERT大火却不懂Transformer？

Transformer

模糊自整定 PID 控制系统设计与仿真- 俯仰姿态保持模糊 PID 控制（Matlab代码、Simulink仿真实现）

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？

桌面工具软件项目效益评估及市场预测分析

告别遮挡！UniApp中WebView与原生导航栏的和谐共处方案（附完整可运行代码）

OSPF是怎么在企业网里自动找最优路径并分区域管理的？