Transformer里用sin和cos做位置编码，为什么选三角函数而不是其他函数？

针对Transformer中sin-cos位置编码的原理与实现，其核心在于解决自注意力机制的“排列不变性”问题，通过可学习的绝对位置向量与词嵌入相加，为模型注入序列顺序信息。以下是其核心原理、数学形式、特性与具体实现方案的深度解析。 ### 一、原理与必要性：为何需要位置编码？ Transformer的自注意力机制通过对序列中所有词对的关联度进行加权计算来捕获上下文信息，但其计算过程本质上是“无序”的。对于输入序列 `[x1, x2, ..., xn]`，自注意力层将每个词视为一个查询（Query），去计算其与所有词（包括自身）的键（Key）的相似度，然后对值（Value）进行加权求和。这个过程与输入词的顺序无关，即打乱输入序列的顺序，自注意力层输出的集合（不考虑顺序）是完全相同的[ref_1]。这被称为“排列不变性”。然而，对于自然语言等序列数据，词序是至关重要的语义信息（例如“猫追老鼠”和“老鼠追猫”意义完全不同）。因此，必须显式地向模型提供位置信息。位置编码（Positional Encoding, PE）的作用，就是在词嵌入（Word Embedding）向量中加入一个表示其绝对位置的向量，从而使模型能够区分不同位置的相同词汇[ref_2]。 | **方法** | **核心思想** | **优点** | **缺点** | | :--- | :--- | :--- | :--- | | **绝对位置编码** | 为每个位置分配一个固定的或可学习的向量。 | 实现简单，直观。 | 难以泛化到训练时未见过的更长序列；无法直接建模相对位置关系。 | | **相对位置编码** | 建模词与词之间的相对距离（如偏移量）。 | 能更好地捕获相对位置信息，长度外推性可能更好。 | 实现相对复杂。 | | **旋转位置编码(RoPE)** | 一种特殊的相对位置编码，通过旋转矩阵将绝对位置融入注意力分数的计算中。 | 在注意力计算中自然地融入相对位置信息，被LLaMA等大模型广泛采用。 | 数学形式较复杂。 | 原始的Transformer论文[ref_2]采用了基于正弦和余弦函数的绝对位置编码，它介于固定编码和可学习编码之间，并具有一些优良特性。 ### 二、 sin-cos位置编码的数学形式与特性 #### 1. 计算公式对于一个长度为 `pos` 的位置（`pos = 0, 1, 2, ...`）和一个维度索引 `i`（`i = 0, 1, 2, ..., d_model-1`，其中 `d_model` 是模型隐藏层的维度），位置编码向量 `PE(pos)` 的第 `i` 维值计算如下： $$ PE_{(pos, 2i)} = sin(pos / 10000^{2i/d_{model}}) $$ $$ PE_{(pos, 2i+1)} = cos(pos / 10000^{2i/d_{model}}) $$ 其中： * `pos`：词在序列中的位置。 * `i`：位置编码向量的维度索引。注意公式中对奇偶维度（`2i` 和 `2i+1`）使用了不同的三角函数。 * `d_model`：词嵌入向量的维度，也是位置编码的维度（两者必须相同以便相加）。 * `10000`：一个超参数，决定了波长（频率）的范围。更大的数值会使波长更长，位置变化更缓慢。 #### 2. 核心特性解析这种设计并非随意，而是为了满足几个关键需求[ref_3][ref_4]： 1. **唯一性**：每个位置都有唯一的位置编码向量，满足了区分不同位置的基本要求。 2. **相对位置关系的可学习性**：对于任意固定的偏移量 `k`，`PE(pos + k)` 可以表示为 `PE(pos)` 的线性函数。这意味着模型可以轻易地学习到相对位置信息。 * 根据三角函数的和角公式： `sin(α+β) = sinα cosβ + cosα sinβ` `cos(α+β) = cosα cosβ - sinα sinβ` * 令 `α = pos / 10000^{2i/d_model}`, `β = k / 10000^{2i/d_model}`，则 `PE(pos+k)` 的每一维都可以用 `PE(pos)` 对应维度的线性组合来表示。这使得模型即使从未在某个绝对位置出现过，也能通过已学习的相对位置关系进行推断。 3. **尺度稳定性和确定性**：编码值被限制在[-1, 1]之间，与经过缩放（如除以`sqrt(d_model)`）的词嵌入处于相近的数值范围，有利于模型稳定训练。同时，它是确定性的（无需训练参数），减少了模型容量开销，并确保了无论模型训练多少次，相同位置得到的编码都是一样的。 4. **连续性和平滑性**：位置编码随着 `pos` 的增加平滑变化。低频维度（`i`值小，分母 `10000^{2i/d_model}` 大，`pos/分母` 变化慢）变化缓慢，编码长周期信息；高频维度（`i`值大）变化迅速，编码精细的位置差异[ref_1]。这类似于二进制表示，但更具连续性和可导性。 ### 三、 PyTorch实现代码详解以下代码展示了如何实现一个标准的sin-cos位置编码层，并清晰地注释了每一步。 ```python import torch import torch.nn as nn import math class SinusoidalPositionalEncoding(nn.Module): """ 正弦-余弦位置编码层 (Sinusoidal Positional Encoding)。根据Transformer原始论文实现。 """ def __init__(self, d_model: int, max_len: int = 5000, dropout: float = 0.1): """ 初始化位置编码层。 Args: d_model (int): 词嵌入和位置编码的维度（必须为偶数）。 max_len (int): 预计算位置编码的最大序列长度。 dropout (float): Dropout率，用于防止过拟合。 """ super().__init__() self.dropout = nn.Dropout(p=dropout) # 1. 计算位置编码矩阵 (max_len, d_model) pe = torch.zeros(max_len, d_model) # 初始化一个全零矩阵 # 2. 创建位置索引 (pos). shape: (max_len, 1) position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1) # 3. 计算频率项分母。 shape: (d_model//2, ) # 公式中的 10000^(2i/d_model) = exp( (2i/d_model) * log(10000) ) # 这里先计算对数项，然后取指数，避免大数幂运算。 div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model)) # 4. 应用正弦函数到偶数维度，余弦函数到奇数维度 # 利用广播机制，position (max_len, 1) * div_term (d_model//2) -> (max_len, d_model//2) pe[:, 0::2] = torch.sin(position * div_term) # 从第0列开始，步长为2，即所有偶数索引列 pe[:, 1::2] = torch.cos(position * div_term) # 从第1列开始，步长为2，即所有奇数索引列 # 5. 增加一个批次维度，方便后续与输入x相加。shape: (1, max_len, d_model) pe = pe.unsqueeze(0) # 6. 将pe注册为模型的缓冲区(Buffer)。缓冲区是模型的一部分，会被保存和加载， # 但不会被优化器更新（不是可训练参数）。 self.register_buffer('pe', pe) def forward(self, x: torch.Tensor) -> torch.Tensor: """ 前向传播。 Args: x: 输入张量，形状为 (batch_size, seq_len, d_model) Returns: 添加了位置编码的张量，形状同x。 """ # 将预计算的位置编码切片到与输入序列相同的长度，然后加到输入上。 # self.pe[:, :x.size(1)] 取前 seq_len 个位置编码 x = x + self.pe[:, :x.size(1)] return self.dropout(x) # 应用Dropout后返回[ref_5][ref_6] # ===== 使用示例 ===== if __name__ == "__main__": d_model = 512 batch_size = 2 seq_len = 10 # 创建模拟的词嵌入输入（实际中应由nn.Embedding层产生） x = torch.randn(batch_size, seq_len, d_model) # 实例化位置编码层 pos_encoder = SinusoidalPositionalEncoding(d_model=d_model, max_len=100, dropout=0.1) # 前向传播：为输入x添加位置信息 output = pos_encoder(x) print(f"输入形状: {x.shape}") print(f"输出形状: {output.shape}") print(f"位置编码矩阵形状: {pos_encoder.pe.shape}") ``` **关键代码步骤解读：** 1. **初始化零矩阵**：`pe` 的形状为 `(max_len, d_model)`，为每个可能的位置（最多 `max_len` 个）预留一个 `d_model` 维的向量。 2. **位置索引**：`position` 是一个列向量 `[[0], [1], ..., [max_len-1]]`。 3. **计算频率项**：`div_term` 对应公式中的 `1 / 10000^{2i/d_model}`。使用指数和对数运算提高数值稳定性[ref_5]。 4. **赋值sin/cos**：利用Python切片语法 `[:, 0::2]` 和 `[:, 1::2]`，高效地为偶数和奇数维度分别赋值正弦和余弦值。 5. **注册缓冲区**：使用 `register_buffer` 将计算好的 `pe` 矩阵保存为模型的一部分，避免在每次前向传播时重复计算。 6. **前向传播**：在 `forward` 方法中，根据当前输入序列的实际长度 `x.size(1)`，从预计算的 `pe` 中取出对应部分，通过广播机制直接加到输入 `x` 上。最后应用一个可选的Dropout层以增强鲁棒性[ref_5]。 ### 四、应用场景与扩展 1. **在Transformer中的使用**：位置编码层通常位于编码器（Encoder）和解码器（Decoder）的输入端。词嵌入向量（代表词汇语义）和位置编码向量（代表位置信息）直接相加，作为多头自注意力层的输入[ref_2]。 2. **长度外推性**：虽然sin-cos编码具有相对位置的可学习性，但其绝对位置编码的特性使其在推理时遇到远长于训练序列的文本时，性能可能下降。这催生了像ALiBi、RoPE等更侧重相对位置或具有更好外推能力的编码方案[ref_2]。 3. **可视化理解**：将不同位置的位置编码向量进行可视化（例如使用热力图），可以看到其波形模式。相邻位置编码相似，远距离位置编码差异大，且不同频率的维度构成了一个从低频到高频的频谱，共同编码了丰富的位置信息[ref_1][ref_4]。总结来说，Transformer的sin-cos位置编码是一个巧妙的设计，它用确定性的、具有良好数学性质（如线性可加性）的三角函数，为模型提供了不可或缺的位置信息，是Transformer能够成功处理序列数据的基石之一。其代码实现简洁高效，通过预计算和缓存机制保证了训练和推理的效率。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 PlatformIO里怎么加Arduino库？有几种靠谱方法？