Transformer里点积注意力为什么要除以根号dk？不除会怎样？

### Scaled Dot-Product Attention 中除以根号 \(d_k\) 的作用在 Transformer 模型中的 scaled dot-product attention 机制中，输入序列的表示通过计算查询向量（query）、键向量（key）和值向量（value）之间的关系来实现[^1]。具体来说，在计算注意力权重的过程中，查询向量与键向量之间会进行点积操作，得到一个分数矩阵。然而，当这些向量维度较高时，点积的结果可能会变得非常大，从而使得 softmax 函数的梯度趋于饱和并减缓训练过程。为了缓解这一问题，引入了一个缩放因子 \(\sqrt{d_k}\)，其中 \(d_k\) 表示键向量的维度大小。这个缩放因子能够有效地控制点积结果的范围，使其保持在一个合理的数值区间内，进而稳定模型的学习过程[^2]。以下是 scaled dot-product attention 的核心公式： \[ Attention(Q, K, V) = \text{softmax} \left( \frac{QK^T}{\sqrt{d_k}} \right)V \] 在这个公式里，\(Q\) 是查询矩阵，\(K\) 是键矩阵，而 \(V\) 则是值矩阵。分母中的 \(\sqrt{d_k}\) 就是用来调整点积得分的标准差，确保它们不会因为高维空间而导致过大或过小的情况发生[^3]。下面是一个简单的 Python 实现例子展示如何应用此概念： ```python import torch import math def scaled_dot_product_attention(query, key, value): d_k = query.size()[-1] scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(d_k) p_attn = torch.nn.functional.softmax(scores, dim=-1) return torch.matmul(p_attn, value), p_attn ```

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 VSCode里怎么给Python文件自动加带作者和日期的头部注释？