Transformer里的注意力机制是怎么让模型‘看懂’句子中词与词关系的？

Transformer模型的核心突破在于其**注意力机制**，它彻底改变了处理序列数据（如文本、语音）的方式。简单来说，注意力机制让模型在处理当前信息时，能够有选择地**聚焦**于输入序列中的**相关部分**，并据此进行加权汇总。下面我将结合您的历史提问，一步步解释它的工作原理、为何能解决传统模型（如您问过的RNN、LSTM）的瓶颈，并通过具体示例进行说明。 #### 一、注意力机制要解决什么问题？您之前提过RNN“记不住很久之前的内容”和“遗忘”的问题[ref_3][ref_4]。这正是传统RNN系列模型的**长距离依赖问题**。当序列很长时，早期信息在多次循环传递中很容易被稀释或丢失。此外，RNN必须**顺序计算**，无法并行，导致训练缓慢。 **注意力机制**的引入，直接打破了这种顺序依赖。它让序列中任意两个位置的信息可以直接建立联系，无论它们相隔多远，从而有效捕捉长距离依赖。同时，所有位置的计算可以**完全并行化**，极大提升了训练效率[ref_4][ref_5]。 #### 二、核心思想：查询（Query）、键（Key）、值（Value）注意力机制可以类比为**信息检索系统**： 1. **查询 (Query)**：代表当前我正在处理、需要关注其他信息的那个“问题”或“焦点”。例如，在翻译“我爱人工智能”中的“人工智能”时，“人工智能”这个词的表示就是Query。 2. **键 (Key)**：代表输入序列中所有位置的“标签”或“索引”。用于与Query进行匹配，计算相关度。 3. **值 (Value)**：代表输入序列中所有位置真正的**信息内容**。 **工作流程**：对于当前的Query，计算它与所有Key的**相似度**（得到一个注意力分数），然后将这些分数归一化为**权重**（所有权重和为1），最后用这些权重对所有的Value进行**加权求和**。结果就是当前Query所得到的、聚焦于相关上下文的新表示。 #### 三、具体计算步骤（缩放点积注意力）这是Transformer中最基础的注意力形式，其计算过程可以清晰地用以下步骤和代码表示[ref_1][ref_3]： ```python import torch import torch.nn.functional as F def scaled_dot_product_attention(Q, K, V, mask=None): """ 缩放点积注意力计算 Args: Q: Query张量，形状为 [batch_size, num_queries, d_k] K: Key张量，形状为 [batch_size, num_keys, d_k] (通常 num_keys == num_queries) V: Value张量，形状为 [batch_size, num_keys, d_v] mask: 可选的掩码张量，用于在解码时屏蔽未来信息 Returns: 注意力输出张量，形状为 [batch_size, num_queries, d_v] """ # 1. 计算点积分数: Q与K的转置相乘 # scores 形状: [batch_size, num_queries, num_keys] scores = torch.matmul(Q, K.transpose(-2, -1)) # 2. 缩放：除以Key向量维度的平方根，防止点积结果过大导致softmax梯度消失 d_k = Q.size(-1) scores = scores / (d_k ** 0.5) # 3. 可选：应用掩码（如解码器中的自回归掩码） if mask is not None: scores = scores.masked_fill(mask == 0, -1e9) # 4. 应用softmax函数，将分数转化为概率分布（注意力权重） # attention_weights 形状: [batch_size, num_queries, num_keys] attention_weights = F.softmax(scores, dim=-1) # 5. 对Value进行加权求和，得到最终的注意力输出 # output 形状: [batch_size, num_queries, d_v] output = torch.matmul(attention_weights, V) return output, attention_weights # 示例：假设我们有一个包含3个词的序列，每个词用4维向量表示 batch_size = 1 num_words = 3 d_model = 4 # 随机初始化 Q, K, V (在实际模型中，它们由输入线性变换得到) Q = torch.randn(batch_size, num_words, d_model) K = torch.randn(batch_size, num_words, d_model) V = torch.randn(batch_size, num_words, d_model) output, attn_weights = scaled_dot_product_attention(Q, K, V) print(f"注意力权重形状：{attn_weights.shape}") print(f"注意力输出形状：{output.shape}") print(f"注意力权重（展示了每个词对其他词的关注程度）：\n{attn_weights}") ``` **代码步骤解读**： * **步骤1-2**：`Query`和`Key`点积计算相似度。缩放是为了稳定训练，因为点积值会随维度增大而变大，导致`softmax`函数进入梯度很小的区域。 * **步骤4**：`softmax`将相似度分数归一化为概率分布，即**注意力权重**。它直观地反映了对于当前`Query`（某个位置），应该以多大的比例关注序列中每个位置（`Key`）的`Value`[ref_3]。 * **步骤5**：使用这些权重对`Value`进行加权求和，生成一个**新的、融合了上下文信息的向量表示**。 #### 四、多头注意力机制单一的注意力机制可能只关注到一种模式的关系（例如语法结构）。为了让模型能够**同时关注来自不同表示子空间的信息**（例如同时关注语法、语义、指代等不同层面的关系），Transformer引入了**多头注意力**[ref_1][ref_3][ref_5]。 | 概念 | 解释 | 类比 | | :--- | :--- | :--- | | **单头注意力** | 使用一组（Q, K, V）进行一次注意力计算。 | 只用一只眼睛、一个角度看一幅画。 | | **多头注意力** | 将Q、K、V通过多组不同的线性投影矩阵，投影到多个低维子空间，在每个子空间并行进行独立的注意力计算，最后将结果拼接并投影回来。 | 用多只眼睛、多个不同角度的滤镜同时看一幅画，最后把看到的所有信息综合起来。 | 其工作原理如下图所示（描述性文字）： 1. **线性投影与分头**：输入向量被多组不同的权重矩阵线性变换，生成多组（Q， K， V）。 2. **并行注意力计算**：每一组（Q， K， V）独立进行前述的缩放点积注意力计算，得到多个“头”的输出。 3. **拼接与融合**：将所有头的输出在特征维度上拼接起来，再经过一次线性投影，融合信息，得到最终输出。 ```python # 简化版多头注意力示意结构 (基于PyTorch) class MultiHeadAttention(torch.nn.Module): def __init__(self, d_model, num_heads): super().__init__() self.d_model = d_model self.num_heads = num_heads assert d_model % num_heads == 0 self.d_k = d_model // num_heads # 用于生成 Q, K, V 的线性投影层 self.W_q = torch.nn.Linear(d_model, d_model) self.W_k = torch.nn.Linear(d_model, d_model) self.W_v = torch.nn.Linear(d_model, d_model) # 最终输出的线性投影层 self.W_o = torch.nn.Linear(d_model, d_model) def forward(self, Q, K, V, mask=None): batch_size = Q.size(0) # 1. 线性投影并分头：重塑张量形状以分离出“头”的维度 # 投影后形状: [batch_size, seq_len, d_model] # 重塑后形状: [batch_size, seq_len, num_heads, d_k] # 转置后形状: [batch_size, num_heads, seq_len, d_k] (便于并行计算) Q = self.W_q(Q).view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2) K = self.W_k(K).view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2) V = self.W_v(V).view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2) # 2. 对每个头，并行应用缩放点积注意力 # attn_output 形状: [batch_size, num_heads, seq_len, d_k] attn_output, attn_weights = scaled_dot_product_attention(Q, K, V, mask) # 3. 拼接多头输出：将“头”的维度移回并拼接 # 形状转换: [batch_size, num_heads, seq_len, d_k] -> [batch_size, seq_len, d_model] attn_output = attn_output.transpose(1, 2).contiguous().view(batch_size, -1, self.d_model) # 4. 通过线性投影层融合多头信息，得到最终输出 output = self.W_o(attn_output) return output, attn_weights ``` 多头机制赋予了模型**强大的并行信息抽取能力**，使其能够同时捕捉序列中多种类型、不同层面的依赖关系[ref_1][ref_5]。 #### 五、在Transformer中的应用：自注意力与编码器-解码器注意力在Transformer架构中，注意力机制主要用在两个地方[ref_3][ref_5]： | 类型 | 应用位置 | Q, K, V 的来源 | 作用 | | :--- | :--- | :--- | :--- | | **自注意力** | 编码器每一层 / 解码器的“带掩码自注意力”层 | 三者都来自同一输入序列（编码器输入或解码器已生成部分）。 | 让序列**内部**的每个元素都与其他所有元素交互，学习序列内部的依赖关系和结构。例如，在句子中，让每个词关注句中所有其他词，以确定其语境含义。 | | **交叉注意力** | 解码器的“编码器-解码器注意力”层 | **Q** 来自解码器上一层的输出。<br>**K, V** 来自编码器最后一层的输出。 | 建立**源序列（编码器输入）和目标序列（解码器输出）**之间的关联。在翻译任务中，让解码器在生成目标语言每一个词时，有选择地聚焦于源语言句子中最相关的部分。 | **示例**：在机器翻译中，将英文“I love AI”翻译成中文“我爱人工智能”。 * **编码器自注意力**：处理英文句子时，“AI”通过自注意力机制会同时与“I”和“love”交互，理解自己在这个句子中的角色和意义。 * **解码器自注意力**：生成中文“人工智能”时，解码器的自注意力会让“人工”关注已生成的“我”和“爱”。 * **编码器-解码器注意力**：在生成“人工智能”时，解码器的Query会去查询编码器输出的所有英文词（Key/Value），注意力权重可能会显示它高度关注英文词“AI”，从而完成准确的对齐和翻译[ref_3]。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python里整数、浮点数和复数各自有什么特点和使用场景？