Cross Transformer里的cross-attention是怎么工作的？为什么叫‘cross’？

Cross Transformer 在Transformer模型中主要体现在 cross - attention 机制上。Transformer模型由Google在2017年提出，旨在解决传统的seq to seq模型在处理长距离依赖问题上的不足，它完全依赖于注意力机制来绘制输入和输出之间的全局依赖关系，并且能够并行化计算，提高训练速度[^2]。在Transformer结构中，将encoder和decoder组合起来即为Transformer的结构，其中涉及到cross - attention。cross - attention使用encoder的输出作为键（k）和值（v），然后将decoder的输入作为查询（q），由于q与k、v来自不同的地方，所以得名cross - attention [^3]。从数学计算角度来看，首先需要计算注意力分数，即查询（Q）与键（K）做内积，公式为 `scores = Q @ K.T / sqrt(d_k)` （这里的 `d_k` 是键向量的维度），得到的 `scores` 形状为 `(N, N)`。接着对 `scores` 进行softmax操作得到注意力权重矩阵，公式为 `attn_weights = softmax(scores, dim=-1)`，其形状同样为 `(N, N)`。最后用注意力权重加权值（V），公式为 `Z = attn_weights @ V`，得到的 `Z` 形状为 `(N, d_v)` [^5]。 ```python import torch import torch.nn.functional as F # 假设 Q, K, V 已经定义 d_k = 64 Q = torch.randn(10, d_k) K = torch.randn(10, d_k) V = torch.randn(10, 64) # d_v = 64 # 计算注意力分数 scores = torch.matmul(Q, K.T) / torch.sqrt(torch.tensor(d_k, dtype=torch.float32)) # 进行softmax得到注意力权重矩阵 attn_weights = F.softmax(scores, dim=-1) # 用注意力权重加权V Z = torch.matmul(attn_weights, V) ```

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇为什么在Educoder Python任务里不能用'class'当变量名？该怎么改才能通过测试？

目录

Cross Transformer里的cross-attention是怎么工作的？为什么叫‘cross’？

Python内容推荐

Self-Attention与Transformer

3.Transformer模型原理详解.pdf

基于Swin Transformer与Dual Cross-Attention的先进图像分类系统+有效涨点

第二节：Attention && Transformer

Cross Attention解析[项目代码]

深度学习-transformer解读

图解Transformer

Cross-Field Transformer for Diabetic Retinopathy

Transformer

transformer分类代码

[] - 2023-03-18 梳理Transformer在时间序列预测中的发展历程代表工作.pdf

使用Transformer模型对IMDB电影评论数据集进行情感分类

Transformer机器翻译数据集

谷歌提出 RNN 版 Transformer，或为长文本建模的当前最优解.pdf

transformer-transformer

Transformer面试笔记[代码]

PyTorch的Transformer模型用于构建和训练一个Transformer模型

Transformer注意力机制详解[项目代码]

transformer_nmt

Attention Mechanisms in Deep Learning.pdf

libcurl下载大文件

200ZJ-65 渣浆泵.rar

领导力融合鬼谷子决篇与三略审权变/差德行的三维决策系统：用于解决管理中的犹豫、误判与用人失误

微信支付V3 Java jsApi 扫码支付示例

240m3发酵罐.rar

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构