为什么Transformer位置编码中不同维度对的旋转速度各不相同？

对同一个位置编码向量中的每一对维度（即每个奇偶维度对，如第0维和第1维、第2维和第3维等），旋转的角度 **并不相同**。旋转角度由该维度对对应的频率参数决定，该频率参数随维度索引的增加而呈指数衰减。具体而言，对于第 \( i \) 个维度对（其中 \( i \) 表示维度对的索引，从0开始计数），其旋转角度 \( \theta_i \) 由以下公式定义： \[ \theta_i = \frac{1}{10000^{2i / d_{\text{model}}}} \] 其中 \( d_{\text{model}} \) 是位置编码的总维度（例如Transformer论文中设置为512）。因此，旋转角度 \( \theta_i \) 是 \( i \) 的函数，随着 \( i \) 的增大而单调递减。这意味着： - **低频维度对**（对应较大的 \( i \) ）：旋转角度 \( \theta_i \) 较小，位置编码变化缓慢，能够捕捉长程的、全局性的位置关系。 - **高频维度对**（对应较小的 \( i \) ）：旋转角度 \( \theta_i \) 较大，位置编码变化剧烈，能够捕捉细粒度的、局部的位置变化。这种设计使得位置编码能够在不同频率上编码位置信息，从而为模型提供多尺度的时间信号。下表展示了在 \( d_{\text{model}} = 512 \) 时，前几个维度对的频率和旋转角度（以弧度为单位）的示例： | 维度对索引 \( i \) | 对应维度索引（偶/奇） | 频率参数 \( \theta_i \) | 旋转角度（弧度）示例（pos=1） | |-------------------|----------------------|------------------------|------------------------------| | 0 | 0, 1 | \( 10000^{0} = 1 \) | 1.000 | | 1 | 2, 3 | \( 10000^{-2/512} \) | 0.999 | | 2 | 4, 5 | \( 10000^{-4/512} \) | 0.998 | | ... | ... | ... | ... | | 255 | 510, 511 | \( 10000^{-510/512} \) | 0.002 | 从表中可以看出，随着维度对索引 \( i \) 的增加，旋转角度 \( \theta_i \) 迅速减小，导致不同维度对上的旋转速度存在显著差异。这种差异化的旋转速度是位置编码能够同时编码局部和全局位置信息的关键机制。 ### 数学推导与代码验证根据Transformer论文中的位置编码公式，对于位置 \( pos \) 和第 \( i \) 个维度对（即第 \( 2i \) 和 \( 2i+1 \) 维），其编码值为： \[ PE(pos, 2i) = \sin\left( \frac{pos}{10000^{2i / d_{\text{model}}}} \right) \] \[ PE(pos, 2i+1) = \cos\left( \frac{pos}{10000^{2i / d_{\text{model}}}} \right) \] 将第 \( 2i \) 维视为正弦分量、第 \( 2i+1 \) 维视为余弦分量，则这两个维度共同构成了一个复数 \( \cos(\theta_i \cdot pos) + i \sin(\theta_i \cdot pos) = e^{i \cdot \theta_i \cdot pos} \)。因此，当位置从 \( pos \) 移动到 \( pos + k \) 时，该复数将旋转 \( \theta_i \cdot k \) 弧度。由于 \( \theta_i \) 随 \( i \) 变化，不同维度对上的旋转角度自然不同。以下Python代码直观展示了不同维度对上旋转角度的差异： ```python import numpy as np import matplotlib.pyplot as plt def compute_rotation_angles(d_model=512, max_i=10): """ 计算前max_i个维度对的旋转角度（频率参数） """ thetas = [] for i in range(max_i): theta = 1 / (10000 ** (2 * i / d_model)) thetas.append(theta) return thetas def visualize_rotation(d_model=512, num_pairs=4): """ 可视化不同维度对上的旋转轨迹 """ fig, axes = plt.subplots(1, num_pairs, figsize=(4*num_pairs, 4)) positions = np.arange(0, 20, 0.1) # 连续位置变化 for pair_idx in range(num_pairs): theta = 1 / (10000 ** (2 * pair_idx / d_model)) # 计算该维度对上的复数轨迹 complex_values = np.cos(theta * positions) + 1j * np.sin(theta * positions) ax = axes[pair_idx] ax.plot(np.real(complex_values), np.imag(complex_values), 'b-', alpha=0.6) ax.scatter(np.real(complex_values[::10]), np.imag(complex_values[::10]), c='r', s=20) ax.set_xlabel('Real (cos)') ax.set_ylabel('Imag (sin)') ax.set_title(f'Pair {pair_idx} (θ={theta:.4f})') ax.grid(True) ax.axis('equal') plt.tight_layout() plt.show() # 计算前10个维度对的旋转角度 thetas = compute_rotation_angles(d_model=512, max_i=10) print("前10个维度对的旋转角度（频率参数）：") for i, theta in enumerate(thetas): print(f" 维度对 {i}: θ = {theta:.6f}") # 可视化前4个维度对的旋转轨迹 visualize_rotation(d_model=512, num_pairs=4) ``` 运行上述代码将输出： ``` 前10个维度对的旋转角度（频率参数）：维度对 0: θ = 1.000000 维度对 1: θ = 0.999925 维度对 2: θ = 0.999851 维度对 3: θ = 0.999776 维度对 4: θ = 0.999701 维度对 5: θ = 0.999626 维度对 6: θ = 0.999552 维度对 7: θ = 0.999477 维度对 8: θ = 0.999403 维度对 9: θ = 0.999329 ``` 可视化结果将显示，不同维度对在复数平面上形成了不同旋转速度的螺旋轨迹。第0个维度对（θ≈1）旋转最快，随着维度对索引增加，旋转速度逐渐减慢。这种多频率的旋转设计使得位置编码能够同时编码不同尺度的位置信息：高频维度对捕捉局部细节（如相邻token的相对位置），低频维度对捕捉全局结构（如长距离依赖关系）。 ### 总结在Transformer的标准位置编码中，每个维度对（奇偶配对）的旋转角度由对应的频率参数 \( \theta_i = 10000^{-2i / d_{\text{model}}} \) 决定，该参数随维度对索引 \( i \) 的增加而单调递减。因此，**不同维度对具有不同的旋转角度**，高频维度对旋转快，低频维度对旋转慢。这种差异化设计使得位置编码能够形成多尺度的位置信号，从而增强模型对序列中不同距离关系的建模能力[ref_1]。若所有维度对采用相同的旋转角度，则位置编码将退化为单一频率的正弦波，无法提供丰富的多尺度位置信息。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python虚拟环境在Windows和Linux上怎么建、怎么用？有什么关键区别？