Transformer中 Set the Mask 算什么

### Transformer 模型中设置 Mask 的作用在Transformer模型架构内，Mask扮演着至关重要的角色。具体而言，在解码器Decoder部分的自注意力机制(Self-Attention)里会运用到Sequence Mask[^1]。这种掩蔽操作旨在防止当前位置关注到后续位置的信息，从而保持预测过程中的因果关系。对于填充(Padding)，当批次(batch)内的句子长度不一致时，较短的句子会被补足至最大长度，此时引入Padding Mask来指示哪些部分是实际内容而哪些仅仅是填充字符。这有助于模型忽略掉这些无意义的位置，提高训练效率并减少噪声干扰。 #### 应用场景在一个完整的Transformer框架下，上述两种类型的Mask被广泛应用于各类自然语言处理(NLP)任务之中： - **机器翻译**：确保目标端生成单词时不受到未来时刻的影响； - **文本摘要**：维持上下文连贯性的同时过滤无关紧要的内容片段； - **问答系统**：保障问题理解阶段不会误读未出现过的词语或概念； ```python import torch def create_padding_mask(seq): mask = (seq == 0).unsqueeze(1).unsqueeze(2) return mask.to(dtype=torch.int) def create_look_ahead_mask(size): mask = 1 - torch.triu(torch.ones((size, size)), diagonal=1) return mask.to(dtype=torch.int) ``` 通过以上方式定义函数`create_padding_mask()`用于创建针对padding token的mask矩阵以及`create_look_ahead_mask()`用来构建sequence mask以阻止前视行为。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 pycharm如何更新tk.tcl 的版本

目录

Transformer中 Set the Mask 算什么

Python内容推荐

Python 练习题讲解 6 · 容器计算（Jupyter 文件）

Transformer中的Encoder、Decoder

用Pytorch实现Transformer

Mask2former代码详解[项目代码]

Transformer和计算机视觉的跨界组合——DetectionTransformer.pdf

Transformer架构解析[可运行源码]

Transformer详细解读PPT

深度学习-transformer解读

Mask2former源码(mmdetection).zip

MAT：用于大孔图像修复的Mask-AwareTransformer.zip

Transformer面筋1

swin transformer的PPT

Mask2Former实例分割技术[可运行源码]

Transformer.ppt

Transformer介绍讲义pdf

基于Transformer结构的遥感影像敏感目标自动隐藏方法.docx

mask-rcnn分割模型

层归一化：Transformer模型的稳定器

Mask-RCNN.zip

手撕Transformer模型[项目源码]

Python解惑之True和False详解

Python中的True,False条件判断实例分析

浅谈Python里面None True False之间的区别

Python返回真假值（True or False）小技巧

python 输入年份 如果是闰年输出True 否则输出False 示例

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

python 输入年份如果是闰年输出True 否则输出False 示例