Transformer里的Q、K、V和dk到底怎么协同工作来算注意力？

在注意力计算中，Q（Query）、K（Key）、V（Value）以及 \(d_k\) 参数起着关键作用。在实际计算中，输入矩阵 \(X\)（由所有 Token 组成）通过三组可训练的权重矩阵 \(W_Q\)、\(W_K\)、\(W_V\) 进行线性变换得到 \(Q\)、\(K\)、\(V\)，公式为 \(Q = XW_Q\)，\(K = XW_K\)，\(V = XW_V\)。其中，\(X\) 维度为 \((n, d)\)，\(W_Q\)、\(W_K\)、\(W_V\) 维度为 \((d, d_k)\)，得到的 \(Q\)、\(K\)、\(V\) 维度均为 \((n, d_k)\)，这里 \(n\) 是 Token 数量，\(d\) 是输入嵌入维度，\(d_k\) 是注意力计算的维度 [^1]。注意力计算的核心公式为 \( \text{Attention}(Q, K, V) = \text{Softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V \)。这里 \(QK^T\) 计算的是 Query 和 Key 之间的相似度，通过点积运算得到一个分数矩阵，这个矩阵反映了每个 Query 与各个 Key 之间的相关性。除以 \(\sqrt{d_k}\) 是为了缩放点积结果，避免点积值过大导致 Softmax 函数梯度消失。Softmax 函数将这些分数转化为概率分布，即注意力权重，表示每个 Key 对于当前 Query 的重要程度。最后，将这些注意力权重与 Value 矩阵相乘，得到最终的注意力输出，也就是对输入信息进行加权求和的结果 [^1][^3]。以下是一个简单的 Python 代码示例，用于实现注意力计算： ```python import torch import torch.nn.functional as F def attention(Q, K, V): d_k = Q.size(-1) scores = torch.matmul(Q, K.transpose(-2, -1)) / torch.sqrt(torch.tensor(d_k, dtype=torch.float32)) attention_weights = F.softmax(scores, dim=-1) output = torch.matmul(attention_weights, V) return output ``` ###

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇这段日志类代码用了哪些关键Python语法特性？能解释一下吗？