Transformer里encoder的pad mask是怎么屏蔽填充词的？

### Transformer Encoder Pad Mask矩阵的作用在Transformer架构中，Pad Mask用于屏蔽填充位置的信息。由于批次内的不同序列长度各异，在实际处理过程中通常会将较短的序列通过特殊标记（PAD token）补齐到统一的最大长度。然而这些额外添加的位置并不携带任何有用信息，反而可能干扰模型学习有效特征。为了防止注意力机制关注到无意义的填充部分，引入了Pad Mask来指示哪些位置应当被忽略掉[^1]。具体来说就是对于每一个真实token而言，其对应的向量里对应于padding tokens的部分会被设置为负无穷大(-inf)，使得softmax函数计算后的权重接近于零，从而达到屏蔽效果。 ### 实现方法下面给出一段Python代码片段展示如何创建并应用这样的掩码： ```python import torch def create_pad_mask(matrix: torch.tensor, pad_token_idx: int): # matrix shape: (batch_size, seq_len) return (matrix != pad_token_idx).unsqueeze(-2) # 假设有一个输入张量input_tensor形状为(batch_size,seq_length),其中包含了若干条已补全至相同长度的句子数据； # 同时定义好pad_token_id表示用来填补空白处所使用的特定ID编号。 input_tensor = ... # 输入张量 pad_token_id = ... mask = create_pad_mask(input_tensor, pad_token_id) print(mask.shape) # 输出应形如torch.Size([batch_size, 1, seq_length]) ``` 上述代码实现了基于给定的输入张量`input_tensor`和指定的填充符索引`pad_token_id`构建出所需的三维布尔型张量作为mask[^4]。注意这里返回的结果是一个维度上增加了新轴的新张量，这有助于后续与其他组件更好地兼容匹配。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Dense架构和纯解码器架构在Transformer里到底是不是一回事？