Transformer的位置编码公式

### Transformer 模型中的位置编码在 Transformer 模型中，为了给输入序列引入顺序信息，采用了正弦和余弦函数的位置编码方案。这些位置编码被加到词嵌入上，使得模型能够利用相对位置关系。对于位置 \( pos \) 和维度 \( i \)，位置编码定义如下： \[ PE_{(pos, 2i)} = \sin\left(\frac{position}{10000^{2i / d}}\right) \] \[ PE_{(pos, 2i+1)} = \cos\left(\frac{position}{10000^{2i / d}}\right) \][^3] 其中： - \( pos \) 是单词在句子中的位置； - \( i \) 表示向量的第几个元素； - \( d \) 是模型的隐藏层大小（即特征维数）；这种形式的选择允许模型轻松学习到不同长度的距离依赖性，并且可以外推到更长的序列。通过这种方式，即使是在训练期间未见过的较长序列，也能保持良好的性能。 ```python import numpy as np def get_position_encoding(seq_len, d_model): angle_rads = get_angles(np.arange(seq_len)[:, np.newaxis], np.arange(d_model)[np.newaxis, :], d_model) # apply sin to even indices in the array; 2i angle_rads[:, 0::2] = np.sin(angle_rads[:, 0::2]) # apply cos to odd indices in the array; 2i+1 angle_rads[:, 1::2] = np.cos(angle_rads[:, 1::2]) return angle_rads def get_angles(position, i, d_model): angle_rates = 1 / np.power(10000, (2 * (i//2)) / np.float32(d_model)) return position * angle_rates ```

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 pycharm专业版如何打开远程桌面