Transformer Encoder里的自注意力是怎么一步步把词和词之间的关系算出来的？

# 自注意力机制在Transformer Encoder中的原理与实现详解自注意力机制是Transformer架构的核心创新，彻底改变了序列建模的方式。本文将深入解析自注意力机制在Encoder中的应用原理、数学基础、实现细节，并提供完整的代码示例。 ## 1. 自注意力机制的基本原理 ### 1.1 自注意力机制的核心思想自注意力机制允许序列中的每个位置都能够关注序列中的所有其他位置，从而捕获全局依赖关系。与传统RNN和CNN相比，自注意力机制具有更好的并行性和长距离依赖建模能力[ref_5]。 **核心优势对比：** | 特性 | RNN/CNN | 自注意力机制 | |------|---------|-------------| | 长距离依赖 | 受限 | 优秀 | | 并行计算 | 差 | 优秀 | | 计算复杂度 | O(n)～O(n²) | O(n²) | | 全局信息 | 有限 | 完整 | ### 1.2 数学基础自注意力机制通过查询（Query）、键（Key）、值（Value）的三元组进行计算： **计算公式：** \[ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V \] 其中： - \( Q \)：查询矩阵 - \( K \)：键矩阵 - \( V \)：值矩阵 - \( d_k \)：键向量的维度 - \( \sqrt{d_k} \)：缩放因子，防止点积过大导致梯度消失[ref_2] ## 2. Transformer Encoder架构详解 ### 2.1 Encoder整体结构 Transformer Encoder由N个相同的层堆叠而成，每层包含两个主要子层[ref_1]： ```python import torch import torch.nn as nn import math class TransformerEncoderLayer(nn.Module): def __init__(self, d_model, nhead, dim_feedforward=2048, dropout=0.1): super(TransformerEncoderLayer, self).__init__() # 多头自注意力机制 self.self_attn = nn.MultiheadAttention(d_model, nhead, dropout=dropout) # 前馈神经网络 self.linear1 = nn.Linear(d_model, dim_feedforward) self.linear2 = nn.Linear(dim_feedforward, d_model) # 归一化层 self.norm1 = nn.LayerNorm(d_model) self.norm2 = nn.LayerNorm(d_model) # Dropout self.dropout = nn.Dropout(dropout) def forward(self, src, src_mask=None, src_key_padding_mask=None): # 自注意力子层（带残差连接和层归一化） src2 = self.self_attn(src, src, src, attn_mask=src_mask, key_padding_mask=src_key_padding_mask)[0] src = self.norm1(src + self.dropout(src2)) # 前馈神经网络子层（带残差连接和层归一化） src2 = self.linear2(self.dropout(torch.relu(self.linear1(src)))) src = self.norm2(src + self.dropout(src2)) return src ``` ### 2.2 多头注意力机制多头注意力通过将注意力计算分布在多个"头"上，使模型能够同时关注不同位置的不同特征[ref_3]： ```python class MultiHeadAttention(nn.Module): def __init__(self, d_model, nhead, dropout=0.1): super(MultiHeadAttention, self).__init__() assert d_model % nhead == 0 self.d_model = d_model self.nhead = nhead self.d_k = d_model // nhead # 线性变换矩阵 self.w_q = nn.Linear(d_model, d_model) self.w_k = nn.Linear(d_model, d_model) self.w_v = nn.Linear(d_model, d_model) self.w_o = nn.Linear(d_model, d_model) self.dropout = nn.Dropout(dropout) def forward(self, query, key, value, mask=None): batch_size = query.size(0) # 线性变换并分头 Q = self.w_q(query).view(batch_size, -1, self.nhead, self.d_k).transpose(1, 2) K = self.w_k(key).view(batch_size, -1, self.nhead, self.d_k).transpose(1, 2) V = self.w_v(value).view(batch_size, -1, self.nhead, self.d_k).transpose(1, 2) # 缩放点积注意力 scores = torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(self.d_k) if mask is not None: scores = scores.masked_fill(mask == 0, -1e9) # Softmax和注意力权重 attn_weights = torch.softmax(scores, dim=-1) attn_weights = self.dropout(attn_weights) # 应用注意力权重 context = torch.matmul(attn_weights, V) # 合并多头输出 context = context.transpose(1, 2).contiguous().view( batch_size, -1, self.d_model ) return self.w_o(context), attn_weights ``` ## 3. 位置编码由于自注意力机制本身不包含位置信息，需要通过位置编码来注入序列的顺序信息[ref_6]： ```python class PositionalEncoding(nn.Module): def __init__(self, d_model, max_len=5000): super(PositionalEncoding, self).__init__() pe = torch.zeros(max_len, d_model) position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1) div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model)) # 正弦余弦位置编码 pe[:, 0::2] = torch.sin(position * div_term) pe[:, 1::2] = torch.cos(position * div_term) pe = pe.unsqueeze(0).transpose(0, 1) self.register_buffer('pe', pe) def forward(self, x): # 将位置编码加到输入嵌入上 return x + self.pe[:x.size(0), :] ``` ## 4. 完整Encoder实现结合所有组件，完整的Transformer Encoder实现如下： ```python class TransformerEncoder(nn.Module): def __init__(self, vocab_size, d_model=512, nhead=8, num_layers=6, dim_feedforward=2048, dropout=0.1, max_len=5000): super(TransformerEncoder, self).__init__() self.d_model = d_model self.embedding = nn.Embedding(vocab_size, d_model) self.pos_encoding = PositionalEncoding(d_model, max_len) # 构建Encoder层 encoder_layers = nn.TransformerEncoderLayer( d_model, nhead, dim_feedforward, dropout ) self.transformer_encoder = nn.TransformerEncoder( encoder_layers, num_layers ) self.dropout = nn.Dropout(dropout) def forward(self, src, src_mask=None, src_key_padding_mask=None): # 词嵌入 + 位置编码 src_emb = self.embedding(src) * math.sqrt(self.d_model) src_emb = self.pos_encoding(src_emb) src_emb = self.dropout(src_emb) # Transformer Encoder处理 output = self.transformer_encoder( src_emb, mask=src_mask, src_key_padding_mask=src_key_padding_mask ) return output ``` ## 5. 自注意力机制在Encoder中的具体应用 ### 5.1 注意力权重分析自注意力机制在Encoder中计算出的注意力权重反映了序列中不同位置之间的相关性强度。例如在句子"I love programming and machine learning"中： - "programming"可能高度关注"love"和"machine" - "machine"可能高度关注"learning"和"programming" 这种全局关注能力使得模型能够理解复杂的语义关系[ref_4]。 ### 5.2 残差连接与层归一化每个子层都采用残差连接和层归一化来稳定训练过程： ```python # 残差连接 + 层归一化的实现示例 class ResidualNorm(nn.Module): def __init__(self, d_model, dropout=0.1): super(ResidualNorm, self).__init__() self.norm = nn.LayerNorm(d_model) self.dropout = nn.Dropout(dropout) def forward(self, x, sublayer): # 残差连接：x + dropout(sublayer(norm(x))) return x + self.dropout(sublayer(self.norm(x))) ``` ## 6. 实际应用场景 ### 6.1 文本分类任务 ```python class TextClassifier(nn.Module): def __init__(self, vocab_size, num_classes, d_model=512, nhead=8, num_layers=6): super(TextClassifier, self).__init__() self.encoder = TransformerEncoder(vocab_size, d_model, nhead, num_layers) self.classifier = nn.Linear(d_model, num_classes) def forward(self, src): # 通过Encoder获取序列表示 encoded = self.encoder(src) # 取第一个位置的输出作为序列表示（或使用池化） sequence_representation = encoded.mean(dim=1) return self.classifier(sequence_representation) ``` ### 6.2 命名实体识别 ```python class NERModel(nn.Module): def __init__(self, vocab_size, num_tags, d_model=512, nhead=8, num_layers=6): super(NERModel, self).__init__() self.encoder = TransformerEncoder(vocab_size, d_model, nhead, num_layers) self.tag_classifier = nn.Linear(d_model, num_tags) def forward(self, src): encoded = self.encoder(src) # 对每个位置进行标签分类 tag_logits = self.tag_classifier(encoded) return tag_logits ``` ## 7. 性能优化与最佳实践 ### 7.1 计算复杂度优化自注意力机制的计算复杂度为O(n²)，对于长序列可能成为瓶颈。可采用以下优化策略： - **局部注意力**：限制每个位置只关注邻近位置 - **稀疏注意力**：使用预定义的注意力模式 - **线性注意力**：使用核方法近似注意力计算 ### 7.2 超参数调优建议 | 参数 | 推荐值 | 说明 | |------|--------|------| | d_model | 512, 768, 1024 | 模型维度 | | nhead | 8, 12, 16 | 注意力头数 | | num_layers | 6, 12, 24 | Encoder层数 | | dim_feedforward | 2048, 3072, 4096 | 前馈网络维度 | 自注意力机制在Transformer Encoder中的成功应用证明了其在捕获序列内部复杂依赖关系方面的卓越能力。通过多头注意力、残差连接、层归一化等技术的结合，Encoder能够有效地学习丰富的序列表示，为下游任务提供强有力的特征支持[ref_1][ref_3][ref_6]。这种架构已经成为现代自然语言处理和其他序列建模任务的事实标准。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇类的声明和定义在不同语言里能拆开写吗？为什么C++常分开而Python不行？

目录

Transformer Encoder里的自注意力是怎么一步步把词和词之间的关系算出来的？

Python内容推荐

Transformer模型Python代码：多头自注意力机制的时间序列预测革新解法,基于多头自注意力机制的Transformer模型：时间序列预测的Python代码实现,Transformer多头自注

Transformer：Seq2Seq 模型 + 自注意力机制.zip

Transformer架构与注意力机制深度解析.pdf

transformer注意力机制手撕代码pytorch版本

Transformer解读.pdf

基于resnet融合transformer注意力模块的改进

2 ????????_transformer_

ai大模型学习和实践学习笔记：Transformer 模型和注意力机制的关系

基于Transformer变体与自注意力机制的时间序列与多元时间序列处理技术的研究与Matlab平台实现,基于Transformer的各种变体已经是时间序列以及多元时间序列的一大热点，自注意力机制以及

多头注意力：Transformer的多面洞察力

基于Keras框架实现的Transformer神经网络模型_包含完整Transformer架构实现和多头注意力机制_支持自定义词嵌入维度和多头数量_适用于自然语言处理任务如文本分类.zip

基于Transformer变体与自注意力机制的时间序列分析技术及Matlab实现

Transformer模型是一种由谷歌公司在2017年提出的基于自注意力机制的神经网络模型，它在自然语言处理（NLP）以及其他序

Transformer自注意机制精讲

Transformer 模型详解

Transformer自注意力与交叉注意力解析[项目代码]

深度学习-Transformer实战系列课程

【自然语言处理】基于PyTorch的Transformer自注意力机制解析：多头注意力模型实现与源码应用

自注意力机制与Transformer[代码]

通过BiGRU+注意力机制对关系进行自动抽取.zip

学生成绩管理系统C++课程设计与实践

别再只盯着BERT了：用知识蒸馏把大模型塞进你的手机App（附实战代码）

为什么ECS的Burst编译器不能直接读取单例管理器里的数据？

RH公司应收账款管理优化策略研究

避坑指南：ArcGIS像元统计处理月度栅格时，90%的人会忽略的3个细节（以气温数据为例）

104规约的测试帧控制字到底是0x43还是407/443？

桌面工具软件项目效益评估及市场预测分析

UE5 Niagara新手教程：用条带渲染器给角色加个酷炫的移动拖尾（附第三人称模板配置）

VMware Workstation 17 怎么合法获取长期使用授权？有无官方试用或教育版途径？

UML建模课程设计：图书馆管理系统论文