Transformer里每个token的Key和Value向量是怎么一步步算出来的？

该提问与当前博客内容无直接关联。在 Transformer 架构中，每个 `token` 的 **Key (`K`)** 和 **Value (`V`)** 向量是其核心计算单元，它们直接决定了注意力机制如何聚焦于输入序列的不同部分。其计算过程是一个高度结构化的线性变换与组合过程，可分解为以下步骤： ### 1. 输入表示与嵌入首先，每个输入 `token`（例如一个词或子词）通过一个 **词嵌入层** 被映射为一个高维向量 `x_i ∈ ℝ^{d_model}`，其中 `d_model` 是模型的隐藏维度（例如 768、1024）。对于序列中的位置 `i`，其输入向量为： ```python # 假设输入序列长度为 n，嵌入维度为 d_model import torch batch_size = 4 seq_len = 10 d_model = 768 x = torch.randn(batch_size, seq_len, d_model) # 输入张量，形状: [batch, seq_len, d_model] ``` ### 2. 线性投影生成 Q, K, V 每个 `token` 的嵌入向量 `x_i` 会通过三个独立的、可学习的**线性投影矩阵** `W_Q`, `W_K`, `W_V ∈ ℝ^{d_model × d_k}`（或 `d_v`）进行变换，分别生成对应的 **Query (`Q`)**, **Key (`K`)**, **Value (`V`)** 向量： * `q_i = x_i * W_Q` * `k_i = x_i * W_K` * `v_i = x_i * W_V` 其中，`d_k` 和 `d_v` 通常是 `d_model` 除以注意力头数 `h` 后的维度（即 `d_k = d_v = d_model / h`）。在多头注意力中，每个注意力头拥有自己独立的投影矩阵。 ```python # 线性投影示例 (单头) d_k = d_v = 64 # 假设每个头的维度为 64 W_Q = torch.nn.Linear(d_model, d_k, bias=False) W_K = torch.nn.Linear(d_model, d_k, bias=False) W_V = torch.nn.Linear(d_model, d_v, bias=False) q = W_Q(x) # 形状: [batch, seq_len, d_k] k = W_K(x) # 形状: [batch, seq_len, d_k] v = W_V(x) # 形状: [batch, seq_len, d_v] ``` ### 3. 注意力分数计算与权重分配 `K` 和 `V` 的核心作用在 **缩放点积注意力** 机制中体现。对于目标 `token` `i` 的 Query `q_i`，其与序列中所有 `token` `j` 的 Key `k_j` 进行点积，得到注意力分数 `e_{ij}`： `e_{ij} = (q_i · k_j^T) / sqrt(d_k)` 随后，通过 `softmax` 函数对分数进行归一化，生成注意力权重 `α_{ij}`： `α_{ij} = softmax(e_{ij})` ### 4. 上下文向量生成最终，`token` `i` 的输出上下文向量 `z_i` 是所有 `token` `j` 的 Value 向量 `v_j` 的加权和，权重即为上一步计算出的 `α_{ij}`： `z_i = Σ_{j=1}^{n} α_{ij} * v_j` **`K` 与 `V` 的职能分工**： * **Key (`K`)**：作为 **检索索引**。`q_i` 与 `k_j` 的点积衡量了两个 `token` 之间的相关性或匹配度，决定了 `token` `j` 的信息对 `token` `i` 的重要性。 * **Value (`V`)**：作为 **信息载体**。它承载了 `token` `j` 的语义内容。注意力权重决定了从每个 `v_j` 中提取多少信息来构建 `token` `i` 的新表示 `z_i`。 ### 5. 多头注意力中的并行计算在实际的 Transformer（如 BERT、GPT）中，采用 **多头注意力**。每个头拥有独立的 `(W_Q^h, W_K^h, W_V^h)` 投影矩阵，并行计算各自的注意力输出 `head^h`，最后将所有头的输出拼接并通过一个线性层 `W_O` 融合： `MultiHead(Q, K, V) = Concat(head_1, ..., head_h) * W_O` 其中 `head_h = Attention(Q * W_Q^h, K * W_K^h, V * W_V^h)` ### 技术对比：不同注意力变体中 K, V 的计算下表对比了不同注意力机制下 `K` 和 `V` 的计算与使用差异： | 注意力类型 | Key (`K`) 来源 | Value (`V`) 来源 | 核心计算特点 | 典型应用场景 | | :--- | :--- | :--- | :--- | :--- | | **自注意力** | 当前序列自身 | 当前序列自身 | `Q, K, V` 均来自同一输入序列，捕捉序列内部依赖。 | BERT 的编码器层，用于理解上下文。 | | **交叉注意力** | 外部序列（如编码器输出） | 外部序列（如编码器输出） | `Q` 来自当前解码器状态，`K, V` 来自编码器输出，实现信息桥接。 | Transformer 解码器在机器翻译中关注编码器表示。 | | **因果注意力** | 当前序列自身（掩码后） | 当前序列自身（掩码后） | 通过上三角掩码，确保 `token` `i` 只能关注到位置 `<= i` 的 `K, V`，保证自回归性。 | GPT 系列模型的解码器层，用于文本生成。 | | **稀疏注意力** | 当前序列的特定子集 | 当前序列的特定子集 | 通过规则（如局部窗口、跨步模式）或学习机制选择性地计算部分 `K, V` 对，降低计算复杂度。 | Longformer, BigBird 等处理长序列的模型。 | ### 6. 计算复杂度与优化计算所有 `token` 对的注意力分数（即 `Q * K^T`）的时空复杂度为 `O(n² * d_k)`，其中 `n` 是序列长度。这是 Transformer 处理长序列的主要瓶颈。近年来出现了多种优化方案，其本质是改变 `K` 和 `V` 的计算或存储方式： * **KV 缓存**：在自回归生成中，已生成 `token` 的 `K, V` 可被缓存，新 `token` 只需计算自身的 `Q, K, V` 并与缓存计算注意力，将复杂度从 `O(n²)` 降至 `O(n)`。 * **线性化注意力**：通过核函数将 `softmax(QK^T)V` 重写为 `φ(Q) * (φ(K)^T V)` 的形式，先计算 `φ(K)^T V`（一个 `d_k × d_v` 的矩阵），将复杂度降至 `O(n * d_k * d_v)`。代表工作有 Linformer, Performer。 * **低秩近似**：假设注意力矩阵是低秩的，通过投影将 `K, V` 的序列长度维度 `n` 降至一个更小的值 `k`，从而降低计算量。例如，Linformer 为每个头学习固定的投影矩阵。综上所述，每个 `token` 的 `K` 和 `V` 的计算是一个始于嵌入向量、经由线性投影、最终服务于注意力权重分配与信息聚合的确定性过程。其在 Transformer 中扮演着“**索引**”与“**内容**”的双重角色，是模型实现上下文感知的核心。对 `K, V` 计算方式的改进（如稀疏化、线性化、缓存）是提升 Transformer 效率与可扩展性的关键研究方向。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Office自动化开发常用哪些技术手段？Python能直接操作Excel和Word吗？