Transformer里的多头K和V是怎么拆分并参与注意力计算的？

在Transformer架构里，多头注意力机制（Multi - Head Attention）中涉及到`kvahead`（多头的`K`和`V`）的概念，下面详细阐述其在注意力公式里的应用。 ### 基本概念在注意力机制中，输入序列会通过线性变换得到查询（Query，`Q`）、键（Key，`K`）和值（Value，`V`）三个矩阵。多头注意力机制把`Q`、`K`和`V`分别划分成多个头（head），每个头独立计算注意力分数，最后再把结果拼接起来。 ### 注意力公式单头注意力的计算公式如下： \[ \text{Attention}(Q, K, V)=\text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V \] 其中，$Q$是查询矩阵，$K$是键矩阵，$V$是值矩阵，$d_k$是键向量的维度。 ### `kvahead`（`K`和`V`多头）的应用步骤 1. **线性变换与多头划分**：输入的序列$X$会通过三个不同的线性变换得到$Q$、$K$和$V$。假设输入维度是$d_{model}$，头的数量是$h$，每个头的维度是$d_k = \frac{d_{model}}{h}$。 \[ \begin{align*} Q&=XW^Q\\ K&=XW^K\\ V&=XW^V \end{align*} \] 其中，$W^Q$、$W^K$和$W^V$是可学习的权重矩阵。然后把$Q$、$K$和$V$分别划分成$h$个头： \[ \begin{align*} Q_i&=Q[:, :, i\times d_k:(i + 1)\times d_k]\\ K_i&=K[:, :, i\times d_k:(i + 1)\times d_k]\\ V_i&=V[:, :, i\times d_k:(i + 1)\times d_k] \end{align*} \] 这里的$i$表示第$i$个头。 2. **每个头计算注意力**：对每个头分别应用注意力公式： \[ \text{Attention}_i(Q_i, K_i, V_i)=\text{softmax}\left(\frac{Q_iK_i^T}{\sqrt{d_k}}\right)V_i \] 3. **拼接结果**：将所有头的注意力结果拼接起来： \[ \text{MultiHead}(Q, K, V)=\text{Concat}(\text{Attention}_1, \text{Attention}_2, \cdots, \text{Attention}_h)W^O \] 其中，$W^O$是另一个可学习的权重矩阵。 ### 代码示例（使用PyTorch） ```python import torch import torch.nn as nn class MultiHeadAttention(nn.Module): def __init__(self, d_model, num_heads): super(MultiHeadAttention, self).__init__() assert d_model % num_heads == 0, "d_model must be divisible by num_heads" self.d_model = d_model self.num_heads = num_heads self.d_k = d_model // num_heads self.W_q = nn.Linear(d_model, d_model) self.W_k = nn.Linear(d_model, d_model) self.W_v = nn.Linear(d_model, d_model) self.W_o = nn.Linear(d_model, d_model) def forward(self, Q, K, V): batch_size = Q.size(0) # 线性变换 Q = self.W_q(Q) K = self.W_k(K) V = self.W_v(V) # 划分成多个头 Q = Q.view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2) K = K.view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2) V = V.view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2) # 计算注意力分数 attn_scores = torch.matmul(Q, K.transpose(-2, -1)) / torch.sqrt(torch.tensor(self.d_k, dtype=torch.float32)) attn_probs = torch.softmax(attn_scores, dim=-1) # 计算注意力输出 attn_output = torch.matmul(attn_probs, V) # 拼接结果 attn_output = attn_output.transpose(1, 2).contiguous().view(batch_size, -1, self.d_model) # 最终线性变换 output = self.W_o(attn_output) return output ```

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 wx.adv 模块在 wxPython 里到底能干啥？它提供的那些高级控件有什么实际用途？

目录

Transformer里的多头K和V是怎么拆分并参与注意力计算的？

Python内容推荐

【Python编程】Python代码可读性与Pythonic编程风格

【Python编程】Python性能剖析与代码优化策略

Python3装饰器无参基础原理

【Python编程】Python命令行工具开发技术栈对比

【Python编程】Python类与面向对象编程核心概念

【Python编程】Python事件驱动编程与观察者模式实现

【Python编程】Python数据类dataclass与attrs库对比

【Python编程】Python日志系统logging模块配置与最佳实践

【Python编程】Python代码重构与遗留代码现代化策略

transformer多头注意力讲解

使用多头注意力机制实现数字预测

Transformer多头注意力机制解析[可运行源码]

多头注意力机制解析[项目源码]

【自然语言处理】基于PyTorch的Transformer自注意力机制解析：多头注意力模型实现与源码应用

3.Transformer模型原理详解.pdf

Transformer注意力机制解析[代码]

Transformer，Transformer组会PPT

Transformer中QKV流向解析[代码]

Transformer详解[项目代码]

Transformer解读.pdf

Python解惑之True和False详解

Python中的True,False条件判断实例分析

浅谈Python里面None True False之间的区别

Python返回真假值（True or False）小技巧

python 输入年份 如果是闰年输出True 否则输出False 示例

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

python 输入年份如果是闰年输出True 否则输出False 示例