Transformer解码器里为什么第一个自注意力要加掩码？这个掩码是怎么起作用的？

### Transformer Decoder 结构详解 #### 1. Transformer Decoder 的整体架构 Transformer Decoder 是 Transformer 架构的重要组成部分之一，主要用于生成序列的任务（如机器翻译、文本摘要等）。它由多个相同的层堆叠而成，每一层主要包含三个子模块：Masked Multi-Head Attention、Multi-Head Attention 和 Feed Forward Network (FFN)[^2]。 #### 2. Masked Multi-Head Attention 层在 Transformer Decoder 中的第一步是 **Masked Multi-Head Attention**。这一部分的作用是对目标序列进行自注意力计算，但由于目标序列是从左到右逐步生成的，在训练过程中为了防止当前位置看到未来的信息，引入了一个 **上三角掩码矩阵** 来屏蔽掉未来的词元。具体操作如下： - 输入的目标序列会被转换为 Query (Q)、Key (K) 和 Value (V)，并通过线性变换得到对应的表示向量。 - 掩码矩阵会作用于注意力分数矩阵 \( \text{Attention(Q, K)} = \frac{\text{Q} \cdot \text{K}^\top}{\sqrt{d_k}} \)，使得对于当前时间步之后的位置赋值为负无穷大（或非常小的一个数），从而让 softmax 后的概率接近零。最终输出的结果经过残差连接和 Layer Normalization 处理后再送入下一个子模块。 ```python import torch.nn as nn import math class MaskedMultiHeadAttention(nn.Module): def __init__(self, d_model, num_heads): super(MaskedMultiHeadAttention, self).__init__() assert d_model % num_heads == 0 self.d_k = d_model // num_heads self.num_heads = num_heads self.linears = clones(nn.Linear(d_model, d_model), 4) def forward(self, query, key, value, mask=None): batch_size = query.size(0) # Linear projections q, k, v = [l(x).view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2) for l, x in zip(self.linears[:3], (query, key, value))] scores = torch.matmul(q, k.transpose(-2, -1)) / math.sqrt(self.d_k) if mask is not None: scores = scores.masked_fill(mask == 0, float('-inf')) p_attn = F.softmax(scores, dim=-1) output = torch.matmul(p_attn, v) output = output.transpose(1, 2).contiguous().view(batch_size, -1, self.num_heads * self.d_k) return self.linears[-1](output) ``` #### 3. Encoder-Decoder Attention 层第二部分是一个普通的 **Multi-Head Attention** 层，其功能类似于编码器中的 Self-Attention，但它接收来自两个不同的源的数据作为输入[^3]： - 查询 Q 矩阵来源于前一步 Masked Multi-Head Attention 输出； - 键 K 和值 V 则来自于编码器的最后一层输出。这种设计允许解码器关注整个输入序列的不同位置，从而更好地理解上下文信息并生成更合理的输出。 #### 4. 前馈神经网络 FFN 最后一个组件是简单的全连接前馈网络，通常包括两层线性变换以及中间 ReLU 激活函数。它的目的是进一步提取特征并向更高维度空间投影数据点。 --- ###

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python 的 for 循环为什么能遍历字典、文件甚至生成器？它背后依赖什么机制？

目录

Transformer解码器里为什么第一个自注意力要加掩码？这个掩码是怎么起作用的？

Python内容推荐

Python-PyTorch实现基于Transformer的神经机器翻译

Python-Transformer的一个TensorFlow实现

transformer代码

transformer代码复现 +数据集可以直接运行

Transformer解码器详解[项目源码]

用Pytorch实现Transformer

Transformer

Transformer解码器原理[项目代码]

Transformer解码器详解[项目代码]

Transformer：Seq2Seq 模型 + 自注意力机制.zip

Transformer编码器与解码器注意力区别[项目代码]

图解Transformer解码器[源码]

pytorch实现seq2seq和transformer机器翻译

Transformer-Tensorflow2：用于分类的Transformer架构

Transformer同样基于编码器-解码器架构

Transformer深度讲解，进一步给出其在NLP和CV下的发展，共95页ppt，全网最好的讲解，没有之一

大白话Transformer结构-从此爱上Transformer

midi文件的小型纯解码器transformer模型.zip

AI基础：图解Transformer.pdf

Transformer详解.pptx

VS2022配置OpenCV[源码]

opencv4.7.0用VS2022编译的debug和release库

OpenCV源码阅读教程[项目代码]

编译GPU加速OpenCV[可运行源码]

OpenCV4.8+CUDA编译教程[源码]

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构