Transformer里的Q、K、V向量到底是怎么算出来的？它们的原始输入从哪来？

### 多头注意力机制中 QKV 的生成方式及其输入来源在 Transformer 架构中，多头注意力机制的核心在于通过线性变换生成查询（Query, Q）、键（Key, K）和值（Value, V）。具体来说，这些向量是由输入序列经过一系列操作产生的。 #### 输入形式多头注意力机制的输入通常是一个形状为 \( (N, L, D_{model}) \) 的张量，其中： - \( N \) 表示批量大小， - \( L \) 是序列长度， - \( D_{model} \) 是模型维度[^1]。这个输入张量会被传递到多个并行的注意力头中，在每个头内部进一步处理。 #### QKV 的生成过程对于每一个注意力头，Q、K 和 V 都是通过对输入张量 \( X \in R^{L \times D_{model}} \) 进行线性变换得到的。具体的计算公式如下： \[ Q = XW_Q,\quad K = XW_K,\quad V = XW_V \] 这里，\( W_Q \), \( W_K \), 和 \( W_V \) 分别是可学习的权重矩阵，其尺寸分别为 \( D_{model} \times d_k \)，\( D_{model} \times d_k \)，以及 \( D_{model} \times d_v \)。注意，\( d_k \) 和 \( d_v \) 通常是 \( D_{model}/h \)，其中 \( h \) 是注意力头的数量。 #### 得分计算与缩放一旦得到了 Q 和 K 向量，就可以通过点积来衡量它们之间的相似程度。得分的计算公式为： \[ \text{Score}_{i,j} = \frac{\text{Q}_i \cdot \text{K}_j}{\sqrt{d_k}} \] 这里的除法是为了防止点积结果过大而导致 softmax 函数数值不稳定[^3]。 #### 输出组合每个注意力头会独立地计算加权后的值向量，并将其作为该头的输出。最终，来自所有头的输出会被拼接在一起并通过另一个线性投影层进行转换，形成最终的上下文表示： \[ \text{Output} = [\text{head}_1; \text{head}_2; ... ; \text{head}_h]W_O \] 其中，\( W_O \) 是用于重新映射回原始维度的一个额外权重矩阵[^2]。 ```python import torch import math def scaled_dot_product_attention(query, key, value): dk = query.size()[-1] scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(dk) attention_weights = torch.softmax(scores, dim=-1) output = torch.matmul(attention_weights, value) return output, attention_weights class MultiHeadAttention(torch.nn.Module): def __init__(self, num_heads, model_dim): super(MultiHeadAttention, self).__init__() assert model_dim % num_heads == 0 self.d_k = model_dim // num_heads self.num_heads = num_heads self.linear_q = torch.nn.Linear(model_dim, model_dim) self.linear_k = torch.nn.Linear(model_dim, model_dim) self.linear_v = torch.nn.Linear(model_dim, model_dim) self.final_linear = torch.nn.Linear(model_dim, model_dim) def forward(self, x): batch_size, seq_len, _ = x.shape q = self.linear_q(x).view(batch_size, seq_len, self.num_heads, self.d_k).transpose(1, 2) k = self.linear_k(x).view(batch_size, seq_len, self.num_heads, self.d_k).transpose(1, 2) v = self.linear_v(x).view(batch_size, seq_len, self.num_heads, self.d_k).transpose(1, 2) outputs, _ = scaled_dot_product_attention(q, k, v) concat_outputs = outputs.transpose(1, 2).contiguous().view(batch_size, seq_len, -1) final_output = self.final_linear(concat_outputs) return final_output ``` 上述代码展示了如何实现一个多头注意力模块，其中包括了 Q、K、V 的生成逻辑以及后续的操作流程。 ---

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Nginx的access.log怎么分析？常用命令和Python处理方法有哪些？

目录

Transformer里的Q、K、V向量到底是怎么算出来的？它们的原始输入从哪来？

Python内容推荐

微电网两阶段鲁棒优化经济调度方法（Python代码实现）

Transformer的QKV设计逻辑[源码]

Transformer中QKV流向解析[代码]

Transformer的QKV机制解析[源码]

Transformer中QKV理解[代码]

Transformer中的QKV机制[项目源码]

Transformer QKV机制解析[项目源码]

LLM注意力QKV矩阵解析[代码]

Transformer中QKV矩阵详解[项目代码]

pytorch有没有什么函数可以将输入序列转换为查询向量，键向量和值向量？

【深度学习优化】昇腾NPU alltoallv转alltoall算子及QKV分离计算优化：Transformer模型性能提升探索文档的主要内容

Transformer详解

RISC-V向量扩展v1.0解析[可运行源码]

Transformer解读.pdf

基于keras实现的transformer.zip

Transformer-transformer

transformer.pdf

【多变量时间序列预测】项目介绍 MATLAB实现基于T2V-Transformer 时间向量嵌入方法（T2V）结合 Transformer 编码器进行多变量时间序列预测的详细项目实例（含模型描述及部分

3.Transformer模型原理详解.pdf

bert和transformer到底学到了什么

随机算法详解：概念、分类、性能分析与实例应用

Qt实战：用ListWidget和TableWidget快速搞定一个简易文件管理器界面

Spring Boot项目一启动就自动退出，可能是什么原因导致的？

PLC控制下的液体混合装置设计与实现

Parallels Desktop虚拟机USB设备无法识别？这个隐藏设置帮你搞定

双谱图上出现明显峰值，说明信号里存在什么非线性特征？

智慧城市建设的总体要求与目标架构解析

Linux内存回收机制：kswapd内核线程的唤醒条件与实战调优指南

用栈判断字符串是否为回文时，为什么只压入前半段字符？这样设计有什么逻辑依据？

人工高阶神经网络在经济学和金融领域的应用分析