Transformer的Encoder和Decoder在结构上有哪些关键差异？比如子层数量、注意力机制类型和掩码使用有什么不同？

### Transformer Encoder 和 Decoder 的结构详解 #### 1. **Encoder 结构** Transformer 的 Encoder 是整个模型的基础组件之一，其核心功能是对输入序列进行编码并生成上下文表示矩阵 \(C\)。以下是 Encoder 的主要组成部分及其工作原理： - **Input Embedding**: 输入的 token 序列会被映射成高维向量空间中的嵌入表示[^4]。 - **Positional Encoding (位置编码)**: 由于 Transformer 不像 RNN 或 LSTM 那样具有天然的时间顺序特性，因此引入了 Positional Encoding 来为模型提供词序信息。位置编码与输入嵌入相加后作为后续处理的初始隐状态。 - **Multi-head Self-Attention Layer**: 这一层允许模型关注不同子空间内的特征关系。通过多个头（heads）计算 Query、Key 和 Value 向量之间的相似度得分来捕获全局依赖性[^3]。 ```python import torch.nn as nn class MultiHeadSelfAttention(nn.Module): def __init__(self, d_model=512, num_heads=8): super(MultiHeadSelfAttention, self).__init__() assert d_model % num_heads == 0 self.d_k = d_model // num_heads self.num_heads = num_heads def forward(self, Q, K, V, mask=None): # 实现多头自注意力机制... pass ``` - **Feed Forward Network (FFN)**: FFN 是一个简单的全连接神经网络，通常包含两个线性变换层以及中间激活函数 ReLU。它进一步增强了表达能力[^1]。 - **Residual Connections & Layer Normalization**: 每个子层之后都应用残差连接和层归一化操作，这有助于缓解梯度消失问题并加速训练过程。最终，经过 N 层堆叠后的 Encoder 输出是一个形状为 \((batch\_size, seq\_len, hidden\_dim)\) 的张量 \(C\)，其中 `hidden_dim` 默认设置为 512 维。 --- #### 2. **Decoder 结构** Decoder 负责基于 Encoder 提供的信息逐步构建目标序列。具体而言，它接收来自上一步预测的结果以及当前时间步的目标单词，并结合先前产生的隐藏状态完成翻译或其他任务。 - **Word Embedding and Positional Encoding**: 类似于 Encoder 中的操作，这里也需要对目标端词汇执行同样的预处理步骤。 - **Masked Multi-head Attention**: 在解码过程中为了防止未来时刻的信息泄露，采用了 Masking 技术屏蔽掉尚未生成的部分。这意味着对于第 t 步来说，只能看到前 t−1 个 tokens 的影响。 ```python def create_mask(size): """ 创建下三角掩码矩阵 :param size: int, 掩码大小 :return: Tensor of shape [size, size], 下三角形填充为 True """ return torch.tril(torch.ones((size, size), dtype=torch.bool)) ``` - **Cross-Attention Mechanism**: 利用 Encoder 输出的 Key 和 Value 矩阵同 Decoder 自己生成 Queries 形成交叉注意力建模源句与目的句间的关系。 - **Final Feedforward Block with Residuals/Layer Norm**: 解码器同样具备类似于编码器那样的前馈网络架构加上必要的正则手段以提升性能表现. 最后得到的是每一轮迭代所对应的概率分布表征各个可能候选词语被选作下一步输出的可能性大小。 --- ### 总结综上所述，Transformer 的 Encoders 和 Decoders 均采用类似的分层设计思路——即交替运用自我注意力机制和标准前馈网络；并通过精心设计的位置编码方案克服传统方法缺乏显式次序线索这一缺陷。此外，借助遮蔽策略有效控制了解码期间可能出现的数据泄漏风险。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python列表的append方法能一次加好几个数吗？为什么加完变成嵌套列表了？