Transformer为什么不用RNN或CNN，而是靠自注意力‘看’全句？位置信息又是怎么悄悄塞进去的？

Transformer模型是2017年Google在《Attention Is All You Need》中提出的革命性架构，彻底摒弃了RNN/CNN结构，完全基于**自注意力机制（Self-Attention）**实现序列建模。其核心组件包括： ✅ **多头自注意力（Multi-Head Self-Attention）**：将输入序列的每个位置映射为Q（Query）、K（Key）、V（Value）三组向量；通过计算Q与K的点积缩放注意力得分（Scaled Dot-Product Attention），再加权求和V，捕获全局依赖关系。"多头"指并行运行h组不同线性投影的注意力子层（如h=8），使模型能同时关注不同子空间的特征（如语法、语义、指代等），最后拼接并线性变换输出。 ✅ **位置编码（Positional Encoding）**：因Transformer无固有顺序感知能力，需显式注入位置信息。原论文采用**正弦/余弦函数编码**（可学习或固定）： \[ PE_{(pos,2i)} = \sin\left(\frac{pos}{10000^{2i/d_{\text{model}}}}\right),\quad PE_{(pos,2i+1)} = \cos\left(\frac{pos}{10000^{2i/d_{\text{model}}}}\right) \] 该设计具备两大优势：① 允许模型外推至更长序列（因函数连续可泛化）；② 任意偏移k的位置编码可表示为原编码的线性变换（隐含相对位置建模能力）。 ✅ **富文本Transformer可视化解释**：可通过交互式工具（如[The Annotated Transformer](http://nlp.seas.harvard.edu/2018/04/03/attention.html)、[Transformer Visualizer](https://transformervisualizer.com/)）直观观察：词元间注意力权重热力图（如“it”高度关注“animal”或“street”以解决指代消解），各层注意力头分工差异（底层关注局部邻近词，高层聚焦长程逻辑关系）。 ✅ **Transformer的升级演进**： - **效率优化**：Linformer（低秩近似）、Performer（随机傅里叶特征）、FlashAttention（IO感知计算）； - **结构增强**：ALiBi（绝对位置偏差替代PE）、RoPE（旋转位置编码，支持长上下文）； - **训练范式**：从BERT（掩码语言建模MLM）到T5（文本到文本统一框架）、LLaMA（RMSNorm + SwiGLU + RoPE）。 ✅ **BERT模型**：基于Transformer Encoder的双向预训练语言模型，通过MLM（随机掩码预测）和NSP（下一句预测）任务学习深层语义表征，在11项NLP任务上刷新SOTA，奠定“预训练+微调”范式。 ✅ **ViT模型（Vision Transformer）**：将图像分割为16×16像素块（patch），线性嵌入后加[CLS]标记和位置编码，送入标准Transformer Encoder。证明纯注意力架构在CV领域同样有效，尤其在大数据集（如JFT-300M）上超越CNN。 ✅ **自注意力机制本质理解**：它是一种**动态权重生成器**——对每个token，依据其与所有token的语义相似度（Q·Kᵀ），自主决定“应关注谁、关注多少”，实现**内容驱动的、数据依赖的、可并行的特征聚合**，突破了CNN感受野固定与RNN时序串行的局限。 ```python import torch import torch.nn as nn import math class ScaledDotProductAttention(nn.Module): def __init__(self, dropout=0.1): super().__init__() self.dropout = nn.Dropout(dropout) def forward(self, Q, K, V, mask=None): # Q, K, V: (batch, head, seq_len, d_k) scores = torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(Q.size(-1)) if mask is not None: scores = scores.masked_fill(mask == 0, -1e9) attn = torch.softmax(scores, dim=-1) attn = self.dropout(attn) return torch.matmul(attn, V) # (batch, head, seq_len, d_v) ```

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python数据可视化常用导入语句和字体设置各有什么作用？

目录

Transformer为什么不用RNN或CNN，而是靠自注意力‘看’全句？位置信息又是怎么悄悄塞进去的？

Python内容推荐

Python-AttentionIsAllYouNeed的TensorFlow实现

Transformer太大了，我要把它微调成RNN.rar

基于TensorFlow的Transformer翻译模型.zip

Transformer面试笔记[代码]

【Transformer学习】含Transformer文章以及annonated-transformer-代码.zip

Transformer介绍.zip

Transformer代码

transformer代码复现 +数据集可以直接运行

transformer的概要介绍与分析

注意力机制详尽解释/读书笔记

深度学习-Transformer实战系列.rar

transformer和ViT Transformer组会汇报ppt

3-1+Swin+Transformer和拥抱Transformer的5个理由.pdf

基于transformers的自然语言处理.zip

Transformer模型详解[可运行源码]

This post is all you need （上卷）-层层剥开Transformer v1.3.1.pdf

融合自注意力机制的长文本生成对抗网络模型.docx

基于神经网络与深度学习技术的期中实践项目_包含卷积神经网络CNN循环神经网络RNN长短期记忆网络LSTMTransformer架构PyTorch框架TensorFlow平.zip

Tranformer开篇之作Attention Is All You Need 论文阅读理解+代码注释解读

大白话Transformer结构-从此爱上Transformer

构建智慧警务大数据平台：全面技术架构设计解析

保姆级教程：用Wireshark抓包分析DoIP协议（从车辆发现到诊断通信）

CAPWAP隧道是怎么在AP和AC之间建立并传输数据的？

2020年互联网大厂薪资职级深度解析

3分钟搞懂dB/dBm/dBV区别：从放大器增益到噪声测量的完整对照表

YOLOv5报错说找不到SPPF类，是不是版本更新导致的兼容问题？

使用Maven和SSM框架搭建测试项目教程

智能车竞赛别再花钱买内核了！手把手教你用龙芯2K0300配置PWM和编码器（附开源内核文件）

用Java Swing做航班预订界面，组件布局和事件响应是怎么安排的？

《spring-webmvc-5.3.16》中文文档使用指南