Transformer里自注意力之后为什么还要加前馈网络？它具体怎么把向量变‘高级’的？

### 前馈神经网络对自注意力机制输出的处理前馈神经网络（Feedforward Neural Network, FNN）是一种典型的神经网络架构，它可以通过多层感知器的方式接收来自其他模块（如自注意力机制）的输入，并对其进行进一步的特征转换和提取[^3]。 #### 输入阶段自注意力机制的输出通常是一个矩阵形式的数据，其中每一行代表输入序列中某个位置经过上下文建模后的向量表示。这些向量已经包含了全局范围内的依赖关系信息，因此可以被视作一种增强版的词嵌入表示[^1]。当这种表示进入FNN时，会被视为标准的数值型张量输入。 #### 转换过程在接收到自注意力机制生成的向量之后，FNN会依次通过若干隐藏层来进行逐级抽象化操作。每层内部主要完成两部分工作：线性变换与非线性激活。具体来说： - **线性变换** 对于第\(l\)层而言，假设当前层接受到上一层传来的特征\(\mathbf{h}^{(l-1)} \in \mathbb{R}^{n_{l-1}}\)，那么该层计算新的隐状态为： ```python z^(l) = W^(l) * h^(l-1) + b^(l) ``` 这里,\(W^{(l)}\)是可训练参数构成的权重矩阵；而\(b^{(l)}\)则是偏置项向量[^2]。 - **非线性映射** 接着会对上述结果施加某种非线性的激励函数f()得到最终本层输出: ```python h^(l) = f(z^(l)) ``` 激励函数的选择对于整个系统的表达能力至关重要，在现代实践中常用的有ReLU(Rectified Linear Unit), tanh(Hyperbolic Tangent Function)，以及更复杂的变体比如Leaky ReLU或者GELU(Gaussian Error Linear Units)[^2]。随着层数增加，低层次捕获的是较为基础简单的模式，高层次逐渐形成复杂精细的概念描述，这就是所谓的“高级别特征”的由来。 #### 输出解释最后，顶层所获得的状态可以直接用于预测任务，例如分类标签的概率分布或者是回归目标的具体数值估计。如果涉及多类别判定，则可能还需要额外加入softmax之类的规范化手段确保概率合法性[^4]。 ```python import torch.nn as nn class FFN(nn.Module): def __init__(self, input_dim, hidden_dim, output_dim): super(FFN, self).__init__() self.fc1 = nn.Linear(input_dim, hidden_dim) self.relu = nn.ReLU() self.fc2 = nn.Linear(hidden_dim, output_dim) def forward(self, x): out = self.fc1(x) # 线性变换 out = self.relu(out) # 非线性激活 out = self.fc2(out) # 另一次线性变换至输出维度 return out ``` 以上代码片段展示了一个简单实现版本的双层全连接前馈神经网络结构定义及其正向传播逻辑。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Linux里Python虚拟环境默认存在哪儿？怎么自定义存放位置？

目录

Transformer里自注意力之后为什么还要加前馈网络？它具体怎么把向量变‘高级’的？

Python内容推荐

Transformer模型Python代码：多头自注意力机制的时间序列预测革新解法,基于多头自注意力机制的Transformer模型：时间序列预测的Python代码实现,Transformer多头自注

基于Python的Transformer多头自注意力机制时间序列预测模型及其优化

平板间二维稳态对流传热方程的软物理信息神经网络实现研究（Python代码实现）

Transformer架构与注意力机制深度解析.pdf

Transformer：Seq2Seq 模型 + 自注意力机制.zip

自注意力机制核心代码实现与优化项目_包含多头注意力位置编码缩放点积注意力残差连接层归一化前馈神经网络掩码机制相对位置编码稀疏注意力线性注意力高效注意力Tran.zip

基于PyTorch深度学习框架实现的Transformer模型完整代码与详细教程_包含自注意力机制_多头注意力_位置编码_前馈网络_编码器解码器结构_序列到序列任务_机器翻译_文本.zip

transformer注意力机制手撕代码pytorch版本

基于PyTorch深度学习框架实现的Transformer和Informer时序预测模型_包含注意力机制多头自注意力位置编码前馈神经网络时间序列预测长序列预测概率稀疏自注意力蒸馏操.zip

Transformer前馈网络作用[可运行源码]

从零开始基于PyTorch框架完整实现Transformer模型架构并包含多头自注意力机制位置前馈网络残差连接与层归一化位置编码等核心模块的深度学习项目_在IWSLT2017英德翻.zip

基于Transformer架构与注意力机制实现的神经机器翻译系统_包含英汉双语平行语料库预处理_子词切分_BPE编码_词向量嵌入_位置编码_多头自注意力_前馈神经网络_残差连接_层.zip

基于PyTorch框架实现的Transformer模型完整接口_包含编码器解码器注意力机制位置编码层归一化残差连接多头注意力前馈网络_用于自然语言处理领域的序列到序列任务如机器翻译.zip

基于resnet融合transformer注意力模块的改进

基于Transformer架构的NLP模型实现与详解项目_包含注意力机制多头自注意力位置编码残差连接层归一化前馈网络编码器解码器结构自回归训练掩码机制序列到序列学.zip

多头注意力：Transformer的多面洞察力

自注意力机制与Transformer[代码]

Transformer注意力机制[项目代码]

MATLAB实现基于Crossformer-Transformer 跨变量注意力增强模型（Crossformer）结合 Transformer 编码器进行多变量时间序列预测的详细项目实例（含完整的程序

基于PyTorch框架从零手写实现的Transformer中英文翻译模型_包含完整的多头注意力机制_前馈神经网络_位置编码_编码器和解码器组件实现_支持中英文句子对训练和推理_可用.zip

随机算法详解：概念、分类、性能分析与实例应用

Qt实战：用ListWidget和TableWidget快速搞定一个简易文件管理器界面

Spring Boot项目一启动就自动退出，可能是什么原因导致的？

PLC控制下的液体混合装置设计与实现

Parallels Desktop虚拟机USB设备无法识别？这个隐藏设置帮你搞定

双谱图上出现明显峰值，说明信号里存在什么非线性特征？

智慧城市建设的总体要求与目标架构解析

Linux内存回收机制：kswapd内核线程的唤醒条件与实战调优指南

用栈判断字符串是否为回文时，为什么只压入前半段字符？这样设计有什么逻辑依据？

人工高阶神经网络在经济学和金融领域的应用分析