Self-Attention机制实战解析：从理论到Transformer应用落地

## 1. 从理论到代码：手把手实现一个Self-Attention层很多朋友一听到Self-Attention，就觉得是Transformer里那个高深莫测的“魔法”部分，公式一堆，看着就头疼。我刚开始看论文的时候也是这感觉，什么Query、Key、Value，还有那个Softmax，绕得人头晕。但后来我亲手用代码实现了几遍之后，才发现它的核心思想其实特别直观，甚至可以说有点“简单”。今天，我就抛开那些复杂的数学外壳，用最直白的话和能直接运行的代码，带你真正搞懂它，并且让你自己能写出来。咱们先打个比方。想象你正在读一篇很长的技术文章（比如你现在看的这篇）。你的大脑并不是一次性记住所有文字，而是在读每一句话的时候，会下意识地去回想和联系前面读过的某些关键句子，来帮助理解当前这句话。比如你看到“Transformer”这个词，可能会自动关联到前面提到的“Self-Attention”。这个“自动关联”的过程，就非常像Self-Attention机制在做的事情：让序列中的每个元素（比如每个词），去“注意”序列中所有其他元素（包括它自己），并根据相关性强弱，从其他元素那里聚合信息。那么，计算机怎么模拟这个“注意”的过程呢？Transformer的发明者们设计了一个巧妙的三步走策略，对应三个核心向量：**Query（查询）**、**Key（键）**和**Value（值）**。你可以这样理解： * **Query（我要找什么）**：代表当前这个词（比如“Transformer”）发出的询问：“跟我相关的信息有哪些？” * **Key（我有什么标签）**：代表序列中每一个词（包括“Transformer”自己）身上贴的标签，用来匹配Query。 * **Value（我实际的内容）**：代表每个词真正蕴含的、可以被提取的信息。注意力计算，就是让当前词的Query去和所有词的Key挨个“对暗号”（计算相似度，比如点积）。对得越准，相似度分数越高。然后，我们用Softmax把这些分数归一化成权重（所有权重加起来等于1），最后用这些权重对所有的Value进行加权求和。这样，当前词的输出，就不再是它自己孤立的信息，而是融合了整个序列中所有与它相关的词的信息。光说可能还有点抽象，我们直接上代码。下面我用PyTorch实现一个最基础的单头Self-Attention，把每一步都拆开给你看： ```python import torch import torch.nn as nn import torch.nn.functional as F class SimpleSelfAttention(nn.Module): def __init__(self, embed_dim): """ embed_dim: 输入向量的维度，比如每个词用512维的向量表示 """ super().__init__() self.embed_dim = embed_dim # 定义三个线性变换层，分别生成Q, K, V # 注意，通常Q、K、V的维度会设置成一样，这里我们设为embed_dim self.query_proj = nn.Linear(embed_dim, embed_dim) self.key_proj = nn.Linear(embed_dim, embed_dim) self.value_proj = nn.Linear(embed_dim, embed_dim) def forward(self, x): """ x: 输入张量，形状为 (batch_size, seq_len, embed_dim) 比如 (1, 10, 512) 表示1个句子，10个词，每个词512维 """ batch_size, seq_len, _ = x.shape # 1. 计算Q, K, V Q = self.query_proj(x) # (batch_size, seq_len, embed_dim) K = self.key_proj(x) # (batch_size, seq_len, embed_dim) V = self.value_proj(x) # (batch_size, seq_len, embed_dim) # 2. 计算注意力分数：Q和K转置后做矩阵乘法 # 结果attn_scores形状: (batch_size, seq_len, seq_len) # 这个矩阵的第i行第j列，就表示第i个词对第j个词的注意力分数 attn_scores = torch.matmul(Q, K.transpose(-2, -1)) # 3. 缩放并应用Softmax # 除以sqrt(d_k)是为了防止点积结果过大，导致Softmax梯度消失 d_k = K.size(-1) attn_scores = attn_scores / (d_k ** 0.5) attn_weights = F.softmax(attn_scores, dim=-1) # 在最后一个维度(seq_len)上做Softmax # 4. 加权求和 # attn_weights: (batch_size, seq_len, seq_len) # V: (batch_size, seq_len, embed_dim) # 输出output: (batch_size, seq_len, embed_dim) output = torch.matmul(attn_weights, V) return output, attn_weights # 返回输出和注意力权重（可用于可视化） # 我们来测试一下 if __name__ == "__main__": embed_dim = 64 seq_len = 5 batch_size = 1 # 随机生成一个输入序列，模拟5个词，每个词64维 x = torch.randn(batch_size, seq_len, embed_dim) attn_layer = SimpleSelfAttention(embed_dim) output, weights = attn_layer(x) print(f"输入形状: {x.shape}") print(f"输出形状: {output.shape}") print(f"注意力权重矩阵形状: {weights.shape}") print(f"注意力权重矩阵（第一个样本）:\n{weights[0]}") ``` 运行这段代码，你会得到一个5x5的注意力权重矩阵。你可以看到每一行的5个数字加起来是1（因为Softmax），这代表了一个词对序列中所有词（包括自己）的“关注度”分布。这就是Self-Attention最核心的计算图景。我强烈建议你在自己的环境里跑一遍，然后尝试改变输入`x`的值，观察权重矩阵的变化，感受一下“动态权重”的含义——权重不是固定的模型参数，而是完全由输入内容即时计算出来的。 ## 2. 升级打怪：实现真正的多头注意力（Multi-Head Attention）如果你只实现到上面那一步，可能会觉得：“嗯，原理我懂了，但感觉和Transformer里用的还差点意思。” 没错，因为真正的Transformer使用的是**多头注意力（Multi-Head Attention）**。这可以说是让Self-Attention威力倍增的关键设计。我第一次读论文时，觉得“多头”就是个并行计算的小技巧，后来在项目里用多了才发现，它的思想非常深刻。为什么需要“多头”？你可以把它想象成我们人类多角度的思考方式。比如，面对“苹果”这个词，一个“头”可能专注于它的“水果”属性（与“香蕉”、“橘子”相关），另一个“头”可能专注于它的“科技公司”属性（与“手机”、“电脑”相关），还有一个“头”可能专注于它在句子中的“语法角色”（是主语还是宾语）。单个Self-Attention层试图一次性学习所有类型的关联，负担太重，效果可能不好。多头注意力就是把输入的嵌入向量“拆分”成好几份（多个头），让每个头在各自降维后的子空间里，独立地学习一种特定的关联模式，最后再把所有头的结果拼接起来，通过一个线性层融合。这样，模型就能同时捕获不同类型、不同层面的依赖关系。理论说了这么多，到底怎么“拆”呢？我们直接来看代码实现，我会把关键步骤的注释写清楚： ```python class MultiHeadAttention(nn.Module): def __init__(self, embed_dim, num_heads, dropout=0.1): super().__init__() assert embed_dim % num_heads == 0, "嵌入维度必须能被头数整除" self.embed_dim = embed_dim self.num_heads = num_heads self.head_dim = embed_dim // num_heads # 每个头负责的维度 # 将Q、K、V投影到多个头的维度，通常投影到 embed_dim 保持不变 self.q_proj = nn.Linear(embed_dim, embed_dim) self.k_proj = nn.Linear(embed_dim, embed_dim) self.v_proj = nn.Linear(embed_dim, embed_dim) # 最终的输出投影层 self.out_proj = nn.Linear(embed_dim, embed_dim) self.dropout = nn.Dropout(dropout) def forward(self, query, key, value, key_padding_mask=None, attn_mask=None): batch_size = query.size(0) # 1. 线性投影并重塑为多头形状 # 线性变换后形状: (batch_size, seq_len, embed_dim) # 重塑后形状: (batch_size, seq_len, num_heads, head_dim) # 转置后形状: (batch_size, num_heads, seq_len, head_dim) -> 方便并行计算每个头 Q = self.q_proj(query).view(batch_size, -1, self.num_heads, self.head_dim).transpose(1, 2) K = self.k_proj(key).view(batch_size, -1, self.num_heads, self.head_dim).transpose(1, 2) V = self.v_proj(value).view(batch_size, -1, self.num_heads, self.head_dim).transpose(1, 2) # 2. 计算缩放点积注意力 (在每一个头上并行计算) # 使用矩阵乘法高效计算所有头的注意力分数 # attn_scores形状: (batch_size, num_heads, query_seq_len, key_seq_len) attn_scores = torch.matmul(Q, K.transpose(-2, -1)) / (self.head_dim ** 0.5) # 3. 应用注意力掩码（如果提供） # key_padding_mask 用于屏蔽padding位置（如batch中句子的填充部分） # attn_mask 用于屏蔽未来信息（如解码器的自回归掩码） if key_padding_mask is not None: # key_padding_mask: (batch_size, key_seq_len), 为True的位置需要被屏蔽 # 需要扩展维度以匹配attn_scores attn_scores = attn_scores.masked_fill( key_padding_mask.unsqueeze(1).unsqueeze(2), # 变成 (batch_size, 1, 1, key_seq_len) float('-inf') ) if attn_mask is not None: attn_scores = attn_scores.masked_fill(attn_mask == 0, float('-inf')) # 4. 计算注意力权重 attn_weights = F.softmax(attn_scores, dim=-1) attn_weights = self.dropout(attn_weights) # 训练时随机丢弃一些注意力连接，防止过拟合 # 5. 应用注意力权重到Value上 # 输出形状: (batch_size, num_heads, query_seq_len, head_dim) attn_output = torch.matmul(attn_weights, V) # 6. 合并多头输出 # 转置回: (batch_size, query_seq_len, num_heads, head_dim) # 合并（拼接）头: (batch_size, query_seq_len, embed_dim) attn_output = attn_output.transpose(1, 2).contiguous().view( batch_size, -1, self.embed_dim ) # 7. 最终线性投影 output = self.out_proj(attn_output) return output, attn_weights # 测试多头注意力 if __name__ == "__main__": embed_dim = 512 num_heads = 8 seq_len = 10 batch_size = 2 # 模拟输入，query, key, value 初始相同（自注意力） query = key = value = torch.randn(batch_size, seq_len, embed_dim) # 模拟一个padding掩码：第二个句子的后3个位置是padding key_padding_mask = torch.zeros(batch_size, seq_len, dtype=torch.bool) key_padding_mask[1, -3:] = True # 第二个样本的最后三个词是padding mha = MultiHeadAttention(embed_dim, num_heads) output, attn_weights = mha(query, key, value, key_padding_mask=key_padding_mask) print(f"输入形状: {query.shape}") print(f"输出形状: {output.shape}") print(f"注意力权重形状: {attn_weights.shape}") # (2, 8, 10, 10) print(f"第一个样本，第一个头的注意力矩阵（已屏蔽padding）:\n{attn_weights[0, 0]}") ``` 这段代码实现了一个工业级可用的多头注意力模块。有几个实战细节值得注意： 1. **`key_padding_mask`**：在实际任务中，一个batch里的句子长度不一样，我们需要用padding（比如0）填充到相同长度。这个掩码就是为了告诉模型，哪些位置是无效的padding，计算注意力时应该忽略它们（将分数设为负无穷，Softmax后权重为0）。 2. **`attn_mask`**：在Transformer的解码器中，为了防止模型在训练时“偷看”未来的答案，需要用一个上三角掩码（未来位置为0）屏蔽掉当前词之后的所有词。这就是自回归生成的关键。 3. **Dropout**：直接在注意力权重上应用Dropout，这是一种非常有效的正则化方法，可以随机“断开”一些注意力连接，迫使模型不过度依赖某几个特定的关联，提升泛化能力。把这个`MultiHeadAttention`类封装好，它就可以作为你构建Transformer编码器、解码器乃至各种变体模型的基础积木了。 ## 3. 超越NLP：Self-Attention在CV与多模态中的实战案例一提到Self-Attention，大家本能想到BERT、GPT这些NLP模型。但它的魅力远不止于此。这几年，它已经在计算机视觉（CV）和多模态领域大杀四方，效果常常碾压传统的CNN。我最早是在做图像分类项目时尝试了Vision Transformer（ViT），当时就被它“简单粗暴”却有效的设计震撼了。下面，我就分享两个我实际跑过的、有代表性的案例。 **案例一：用Vision Transformer（ViT）做图像分类** ViT的思路极其大胆：把一张图片切成一个个固定大小的图像块（比如16x16像素），把这些图像块拉平，当成一个“词序列”喂给标准的Transformer编码器。对，你没听错，它完全抛弃了卷积，就用纯Transformer来处理图像。我们不用从头造轮子，可以用流行的`timm`库（PyTorch Image Models）快速体验。但为了理解其核心，我们可以看看最关键的“图像转序列”步骤是如何实现的： ```python import torch import torch.nn as nn from einops import rearrange class PatchEmbedding(nn.Module): """将2D图像分割为序列化的图像块并嵌入""" def __init__(self, img_size=224, patch_size=16, in_channels=3, embed_dim=768): super().__init__() self.img_size = img_size self.patch_size = patch_size self.num_patches = (img_size // patch_size) ** 2 # 用一个卷积层来实现“切块”和线性投影 # 卷积核大小=步长=patch_size，这样每个卷积输出恰好对应一个图像块的特征 self.projection = nn.Conv2d(in_channels, embed_dim, kernel_size=patch_size, stride=patch_size) # 可学习的位置编码：为每个图像块位置学习一个独特的向量 self.position_embedding = nn.Parameter(torch.randn(1, self.num_patches + 1, embed_dim)) # 分类令牌：一个可学习的向量，用于聚合全局信息，最终用于分类 self.cls_token = nn.Parameter(torch.randn(1, 1, embed_dim)) def forward(self, x): # x: (batch_size, channels, height, width) batch_size = x.shape[0] # 投影并展平： (B, C, H, W) -> (B, embed_dim, H/patch, W/patch) -> (B, embed_dim, num_patches) x = self.projection(x) # (B, embed_dim, num_patches_h, num_patches_w) x = x.flatten(2) # (B, embed_dim, num_patches) x = x.transpose(1, 2) # (B, num_patches, embed_dim) # 添加分类令牌 cls_tokens = self.cls_token.expand(batch_size, -1, -1) # (B, 1, embed_dim) x = torch.cat((cls_tokens, x), dim=1) # (B, num_patches+1, embed_dim) # 添加位置编码 x = x + self.position_embedding return x # 模拟一张224x224的RGB图像 batch_size = 4 img = torch.randn(batch_size, 3, 224, 224) patch_embed = PatchEmbedding(img_size=224, patch_size=16, embed_dim=768) patch_sequence = patch_embed(img) print(f"原始图像形状: {img.shape}") print(f"处理后序列形状: {patch_sequence.shape}") # (4, 197, 768) # 197 = 1 (cls_token) + (224/16)^2 (196个图像块) ``` 得到这个`(B, 197, 768)`的序列后，你就可以直接把它输入到一堆由`MultiHeadAttention`和FFN（前馈网络）层堆叠起来的Transformer编码器中。最后，取出序列第一个位置（即`cls_token`）对应的输出向量，接一个分类头，就完成了图像分类。我在多个数据集上对比过，当数据量足够大时（比如ImageNet-21k预训练），ViT的性能确实能媲美甚至超越最优秀的CNN模型，而且对图像中的长距离依赖建模得更好。 **案例二：用CLIP理解图文关联（多模态）** 如果说ViT展示了Self-Attention在单一模态的威力，那么OpenAI的CLIP模型就完美展现了它在**多模态对齐**上的魔力。CLIP的目标是学习一个共同的嵌入空间，让图片和描述它的文字在这个空间里靠得很近。它的训练方式非常巧妙：从网上收集海量的（图像，文本）对，然后训练两个编码器——一个图像编码器（通常是ViT或ResNet变体），一个文本编码器（通常是Transformer）。训练的核心是一个对比学习损失。假设一个batch里有N个图像-文本对，模型会计算一个NxN的相似度矩阵（图像特征和文本特征做点积）。对角线上的元素是匹配的对，应该相似度高；非对角线上的元素是不匹配的对，应该相似度低。损失函数就是鼓励对角线上的分数高，非对角线上的分数低。 ```python import torch import torch.nn as nn import torch.nn.functional as F class SimpleCLIP(nn.Module): def __init__(self, image_encoder, text_encoder, embed_dim=512, temperature=0.07): super().__init__() self.image_encoder = image_encoder # 输出特征维度为embed_dim self.text_encoder = text_encoder # 输出特征维度为embed_dim self.temperature = temperature # 温度系数，用于调节分布 # 可学习的投影头，将编码器输出映射到统一的对比空间 self.image_proj = nn.Linear(embed_dim, embed_dim) self.text_proj = nn.Linear(embed_dim, embed_dim) def forward(self, images, input_ids, attention_mask): # 提取特征 image_features = self.image_encoder(images) # (B, embed_dim) text_features = self.text_encoder(input_ids, attention_mask) # (B, embed_dim) # 投影到对比空间 image_embeddings = self.image_proj(image_features) text_embeddings = self.text_proj(text_features) # 归一化（对比学习常用技巧） image_embeddings = F.normalize(image_embeddings, dim=-1) text_embeddings = F.normalize(text_embeddings, dim=-1) # 计算相似度矩阵 (B, B) logits = torch.matmul(image_embeddings, text_embeddings.T) / self.temperature # 创建标签：对角线是匹配对 labels = torch.arange(logits.size(0), device=logits.device) # 对称的对比损失 loss_i = F.cross_entropy(logits, labels) # 图像作为查询的损失 loss_t = F.cross_entropy(logits.T, labels) # 文本作为查询的损失 loss = (loss_i + loss_t) / 2 return loss, image_embeddings, text_embeddings ``` 在这个框架里，**Self-Attention在两个编码器内部都起到了核心作用**。文本编码器自然不用说，就是标准的Transformer。图像编码器如果使用ViT，其核心也是Self-Attention。正是通过Self-Attention，模型才能分别从图像块序列和词序列中，提炼出最能代表整体语义的、紧凑的特征向量。最终，这两个来自不同模态的向量被拉到了同一个空间，实现了跨模态的理解。基于CLIP，我们可以做零样本图像分类、图文检索、甚至作为Stable Diffusion等生成模型的引导器，用途非常广。 ## 4. 性能优化与生产部署：应对长序列与效率挑战当你兴冲冲地把标准的Transformer模型应用到实际项目，比如处理长文档、高分辨率图像或者长视频时，很可能马上就会碰上一个致命问题：**显存爆炸，速度巨慢**。这是因为标准Self-Attention的计算和内存复杂度是序列长度的平方级（O(n²)）。一个1000个token的序列，注意力矩阵就是1000x1000；如果是10000个token，矩阵就有一亿个元素，这无论是计算还是存储都难以承受。我在处理一批长文本时，就曾被OOM（内存溢出）错误折磨得够呛。所以，想把Self-Attention真正用起来，尤其是用到生产环境，我们必须掌握一些优化技巧。下面分享几种我实践过且有效的方法。 **技巧一：使用现成的高效注意力实现** 不要自己从头写注意力计算！社区有大量优化过的库，它们利用了硬件特性和数学近似，速度可能比你手写的快一个数量级。最推荐的是**FlashAttention**。它通过一系列精妙的IO感知算法，在GPU上重组计算顺序，大幅减少了对显存带宽的访问，从而实现了更快速度和更低的内存占用。使用起来也很简单： ```python # 安装 flash-attn 库 (可能需要根据你的CUDA版本安装) # pip install flash-attn --no-build-isolation try: from flash_attn import flash_attn_func USE_FLASH_ATTN = True except ImportError: USE_FLASH_ATTN = False print("未安装flash-attn，将使用PyTorch原生注意力。建议安装以获得极致性能。") def efficient_attention(Q, K, V, key_padding_mask=None): if USE_FLASH_ATTN and Q.is_cuda: # FlashAttention 有自己特定的输入格式要求 # 它通常期望输入形状为 (batch_size, seq_len, num_heads, head_dim) # 并且支持掩码 # 注意：需要根据flash_attn的API文档调整参数 return flash_attn_func(Q, K, V, causal=False) # 非因果掩码 else: # 回退到PyTorch原生实现 attn_scores = torch.matmul(Q, K.transpose(-2, -1)) / (Q.size(-1) ** 0.5) if key_padding_mask is not None: attn_scores = attn_scores.masked_fill(key_padding_mask.unsqueeze(1).unsqueeze(2), float('-inf')) attn_weights = F.softmax(attn_scores, dim=-1) return torch.matmul(attn_weights, V) ``` **技巧二：采用稀疏或近似注意力机制** 如果FlashAttention还不能满足超长序列的需求，或者你想在理论上有突破，可以考虑改变注意力计算本身。这类方法的核心思想是：**不是所有词对之间的注意力都是必要的**。很多研究也表明，注意力矩阵通常是稀疏的。 1. **局部窗口注意力**：这是最直观的。Swin Transformer就是典范。它把图像划分成不重叠的窗口，只在每个窗口内部计算注意力，大大降低了计算量。为了引入跨窗口连接，它还会在深层交替使用窗口划分和移动窗口划分。 2. **稀疏注意力模式**：比如Longformer的“滑动窗口+全局注意力”模式。对于每个token，它只关注其附近一定窗口内的token（局部），同时预设少数几个特殊的“全局token”（如[CLS]）可以被所有token关注，或者让每个token额外关注几个固定的、间隔的全局位置。这在处理长文档时非常有效。 3. **线性注意力**：这是一类数学上的近似方法，如Performer。它通过一个巧妙的核函数，将标准的Softmax注意力计算改写为两个向量先做非线性变换再点积的形式，从而利用矩阵乘法的结合律，将复杂度从O(n²)降到O(n)。它的实现和标准注意力几乎一样，只是换了个核函数。 ```python # 以线性注意力（Performer风格）的简化示例为例 class LinearAttention(nn.Module): def __init__(self, embed_dim, feature_dim=256): super().__init__() # 使用随机特征映射来近似softmax核 self.proj_q = nn.Linear(embed_dim, feature_dim) self.proj_k = nn.Linear(embed_dim, feature_dim) self.proj_v = nn.Linear(embed_dim, embed_dim) def forward(self, x): Q, K, V = self.proj_q(x), self.proj_k(x), self.proj_v(x) # 使用elu+1作为特征映射函数的一个简单例子 Q = F.elu(Q) + 1 K = F.elu(K) + 1 # 线性复杂度的关键步骤：(Q * (K^T * V)) 而不是 ((Q * K^T) * V) KV = torch.einsum('nld,nlm->ndm', K, V) # 先计算K^T * V，复杂度O(n) Z = 1. / (torch.einsum('nld,nd->nl', Q, K.sum(dim=1)) + 1e-6) # 归一化因子 V = torch.einsum('nld,ndm,nl->nlm', Q, KV, Z) # 再计算Q * (KV)，复杂度O(n) return V ``` **技巧三：模型压缩与量化部署** 模型训练好了，要上线服务，还得考虑推理速度。对于Transformer模型，**知识蒸馏**和**量化**是两大法宝。 * **知识蒸馏**：训练一个庞大的“教师模型”，然后用它的输出（不仅是最终标签，还有中间层的注意力分布、隐藏状态）作为监督信号，去训练一个轻量级的“学生模型”。我在项目中用TinyBERT蒸馏过BERT-base，学生模型尺寸能小7倍，速度提升5倍以上，性能损失却很小。 * **量化**：将模型权重和激活值从32位浮点数（FP32）转换为8位整数（INT8）。这能直接减省75%的存储和内存带宽，并利用整数计算单元加速。PyTorch提供了`torch.quantization`模块，可以相对方便地进行动态量化或静态量化。对于Self-Attention中的大量矩阵乘，量化带来的加速效果非常明显。 ```python # 一个非常简单的动态量化示例（针对CPU部署） import torch.quantization # 假设我们的模型是前面定义的MultiHeadAttention model = MultiHeadAttention(embed_dim=512, num_heads=8) model.eval() # 指定需要量化的模块 model.qconfig = torch.quantization.get_default_qconfig('fbgemm') # 针对x86 CPU # 准备量化（插入观察者） quantized_model = torch.quantization.prepare(model, inplace=False) # 用校准数据运行一下（这里用随机数据模拟） calib_data = torch.randn(1, 10, 512) quantized_model(calib_data, calib_data, calib_data) # 转换为量化模型 quantized_model = torch.quantization.convert(quantized_model, inplace=False) ``` 在实际部署中，我们通常会将优化后的模型用**ONNX**格式导出，然后利用**TensorRT**或**OpenVINO**等推理引擎，在目标硬件（GPU、CPU、边缘设备）上做进一步的图优化和加速。这个过程可能会遇到算子不支持、精度下降等问题，需要耐心调试。但一旦跑通，性能的提升是实实在在的。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇如何验证Python3.8镜像完整性？校验与签名实战步骤

目录

Self-Attention机制实战解析：从理论到Transformer应用落地

Python内容推荐

Python自然语言处理-BERT实战

大模型基础原理与核心架构深度解析（1）.md

AI 解题助手，考试助手，在「面试」或「在线考试」时，借助AI实时提供解题思路和答案。.zip

AI 大模型应用_Agent工程师学习面试大全（Agent Dev Roadmap）.zip

Self-Attention与Transformer

nlp中的Attention注意力机制+Transformer详解

详解Self-attention与Transformer1

Transformer PPT

【人工智能学习】【十六】Self Attention和Transformer

AIGC成长手册工具库.zip

Attention与Self-Attention机制详解[源码]

30种常见注意力机制论文、解读、使用方法、实现代码整理（Attention）

Attention Is All You Need

Attention(注意力机制代码)

3.Transformer模型原理详解.pdf

第二节：Attention && Transformer

Self-Attention机制详解[代码]

第八次组会PPT_Vision in Transformer

Transformer原理到实践详解

From Attention to Transformer.pptx

vision-template-opencv-3.3:入门代码演示了如何使用CMake轻松地在src文件夹中编译源代码。 支持Linux，Mac和Windows（与VS 2015一起使用）-How to use the source code

Arduino-CMake-Toolchain：适用于所有Arduino兼容板的CMake工具链

opencv配置文件

二维码编码库-qrencode-vs2010静态库

vscode+cmake stm32工程模板

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

vision-template-opencv-3.3:入门代码演示了如何使用CMake轻松地在src文件夹中编译源代码。支持Linux，Mac和Windows（与VS 2015一起使用）-How to use the source code