Transformer里的FFN为什么叫‘位置无关却逐位置计算’？它到底怎么工作的？

### Position-Wise Feed-Forward Network 的概念在 Transformer 架构中，Position-Wise Feed-Forward Network (FFN) 是一种应用于每个位置的前馈神经网络结构[^1]。该网络独立作用于序列中的每一个位置，并共享相同的参数集。具体来说，FFN 包含两层线性变换，中间夹着一层激活函数（通常是 ReLU）。其数学表达形式如下： \[ FFN(x) = \max(0, xW_1 + b_1)W_2 + b_2 \] 其中 \( W_1 \), \( W_2 \), \( b_1 \), 和 \( b_2 \) 表示可学习的权重矩阵和偏置向量。输入 \( x \) 经过第一个全连接层后通过非线性激活函数处理，再经过第二个全连接层得到最终输出。以下是 FFN 的 Python 实现代码示例： ```python import torch.nn as nn class PositionwiseFeedForward(nn.Module): def __init__(self, d_model, d_ff, dropout=0.1): super(PositionwiseFeedForward, self).__init__() self.w_1 = nn.Linear(d_model, d_ff) self.w_2 = nn.Linear(d_ff, d_model) self.dropout = nn.Dropout(dropout) self.relu = nn.ReLU() def forward(self, x): return self.w_2(self.dropout(self.relu(self.w_1(x)))) ``` 在这个实现中，`d_model` 是输入和输出维度大小，而 `d_ff` 则是隐藏层的较大维度尺寸。ReLU 激活函数用于引入非线性特性。值得注意的是，在 Transformer 中，特征映射的学习方式不同于传统的手动设计方法（如多项式特征映射或支持向量机使用的高斯核），而是通过深度学习自动完成这一过程[^2]。此外，尽管 FFN 对每个位置单独操作，但由于残差连接的存在，模型能够更好地捕捉长期依赖关系并缓解梯度消失问题[^3]。 #### 注意事项虽然 FFN 提供了强大的表示能力，但它并不负责捕获单词之间的相对位置信息；这部分功能由自注意力机制结合位置编码共同完成。 ---

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Transformer里每个词是怎么‘看到’句子里其他词的？

目录

Transformer里的FFN为什么叫‘位置无关却逐位置计算’？它到底怎么工作的？

Python内容推荐

微电网两阶段鲁棒优化经济调度方法（Python代码实现）

Transformer FFN结构解析[项目代码]

为何Transformer在计算机视觉中如此受欢迎？.pdf

2 ????????_transformer_

transformer网络结构详解PDF

Transformer介绍.pdf

transformer-transformer

一文理解Transformer的工作原理

Transformer详解.pptx

PyTorch实现基于Transformer的神经机器翻译

transformer相关学习资源，transformer

基于keras实现的transformer.zip

Transformer-XL模型代码

bert和transformer到底学到了什么

Excel手搓Transformer详解[代码]

深度学习自然语言处理-Transformer模型.zip

Transformer-transformer

基于pytorch实现Transformer模型的最简洁方式源码+模型+详细注释+运行说明.zip

空间计算革命：SLAM系统融合Transformer的实时环境语义理解.pdf

tensorflow实现的swin-transformer代码

随机算法详解：概念、分类、性能分析与实例应用

Qt实战：用ListWidget和TableWidget快速搞定一个简易文件管理器界面

Spring Boot项目一启动就自动退出，可能是什么原因导致的？

PLC控制下的液体混合装置设计与实现

Parallels Desktop虚拟机USB设备无法识别？这个隐藏设置帮你搞定

双谱图上出现明显峰值，说明信号里存在什么非线性特征？

智慧城市建设的总体要求与目标架构解析

Linux内存回收机制：kswapd内核线程的唤醒条件与实战调优指南

用栈判断字符串是否为回文时，为什么只压入前半段字符？这样设计有什么逻辑依据？

人工高阶神经网络在经济学和金融领域的应用分析