为什么Transformer里点乘注意力要除以根号下dk？不缩放会怎样？

### 缩放点乘结果的意义在注意力机制中，缩放点积注意（Scaled Dot-Product Attention）是一种常用的技术。其核心思想是对查询向量 \( Q \) 和键向量 \( K \) 的点乘结果进行缩放处理后再传递给 softmax 函数。这种技术的主要目的是为了防止高维向量点乘的结果过大而导致 softmax 梯度消失的问题。 #### 高维向量点乘结果过大的影响当查询向量和键向量的维度较高时，它们之间的点乘结果可能会变得非常大。这是因为对于两个随机分布的标准正态变量 \( q_i \sim N(0,1) \) 和 \( k_j \sim N(0,1) \)，它们的点乘期望值会随着维度 \( d_k \) 增加而线性增长[^1]。具体来说： \[ q^\top k = \sum_{i=1}^{d_k} q_i k_i, \] 如果 \( q_i \) 和 \( k_i \) 是标准正态分布，则 \( E[q^\top k] = 0 \), 并且方差为 \( Var(q^\top k) = d_k \)。这意味着随着维度 \( d_k \) 的增大，点乘结果的绝对值可能显著变大，从而导致 softmax 输出的概率分布趋于极端化——某些位置接近于 1 而其他位置接近于 0。这种情况会使反向传播过程中梯度几乎完全集中在少数几个位置上，进而引发梯度消失问题。 #### 使用 sqrt(d_k) 进行缩放的作用为了避免上述问题，在计算注意力分数之前引入了一个简单的缩放因子 \( \frac{1}{\sqrt{d_k}} \): \[ Attention(Q,K,V)=Softmax(\frac{QK^T}{\sqrt{d_k}})V. \] 这里的 \( d_k \) 表示键向量的维度。通过除以 \( \sqrt{d_k} \)，可以有效地控制点乘结果的增长幅度，使其分布在更合理的范围内。这样做的好处在于能够维持 softmax 后概率分布更加均匀合理，减少因数值过大造成的梯度不稳定现象，有助于提高模型训练过程中的稳定性与效率。 ```python import numpy as np def scaled_dot_product_attention(query, key, value): dk = query.shape[-1] scores = np.matmul(query, key.T) / np.sqrt(dk) attention_weights = np.exp(scores) / np.sum(np.exp(scores)) output = np.dot(attention_weights, value) return output, attention_weights ``` ### 总结通过对点乘结果应用 \( \frac{1}{\sqrt{d_k}} \) 的缩放操作，可以在一定程度上缓解由高维向量引起的 softmax 梯度消失问题，同时促进训练期间梯度流更为平稳一致。这是现代深度学习框架如 Transformer 中广泛采用的一种技巧。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇移动平均是怎么平滑数据的？它在Python和Java里分别怎么实现？

目录

为什么Transformer里点乘注意力要除以根号下dk？不缩放会怎样？

Python内容推荐

【Python编程】Python条件语句与循环结构进阶技巧

【Python编程】Python配置管理与环境变量处理方案

【创新未发表】离网运行、储能配置与并网经济性比较研究（Matlab代码、Python、数据、word论文）

【Python编程】Python虚拟环境与依赖管理方案

【Python编程】Python Web框架Flask与Django架构对比

【Python编程】Python迭代器与生成器机制剖析

Python获取近期天气数据并显示在窗口

Self-Attention中除以dk的原因[可运行源码]

Transformer中QKV理解[代码]

BERT实现情感分析.

华为atlas200I dk ai应用例子

注意力机制和Seq2seq模型

基于多特征融合及Transformer的人体跌倒动作检测算法.docx

基于句子分组的中英机器翻译研究.docx

Ascend Transformer Boost加速库是一款高效、可靠的加速库，基于华为Ascend AI处理器，专门为Transformer模型的训练和推理而设计

MindSporeTransformers套件的目标是构建一个大模型训练、推理、部署的全流程套件： 提供业内主流的Transformer类预训练模型， 涵盖丰富的并行特性 期望用户轻松实现大模型训练

S. Smith GMI_immersion cooling liquids_final_v4_PSU_version.pdf

BERT-for-RRC-ABSA:NAACL 2019论文的代码

songguo6666_vision_sentinel_20772_1775732888414.zip

转图问答机器人

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？

桌面工具软件项目效益评估及市场预测分析

告别遮挡！UniApp中WebView与原生导航栏的和谐共处方案（附完整可运行代码）

OSPF是怎么在企业网里自动找最优路径并分区域管理的？

UML建模课程设计：图书馆管理系统论文

MindSporeTransformers套件的目标是构建一个大模型训练、推理、部署的全流程套件：提供业内主流的Transformer类预训练模型，涵盖丰富的并行特性期望用户轻松实现大模型训练