2024-11-21
深度学习
00

目录

Transformer模型中的位置编码
向量的旋转
RoPE 旋转位置编码
输入向量表示
RoPE 的旋转公式
解释
RoPE 整体公式
RoPE 理解
1. 频率越低,对相对位置越不敏感
2. 高频:短距离依赖
3. 旋转操作的作用

Transformer模型中的位置编码

Transformer模型中的位置编码(Positional Encoding)用于为模型提供序列中单词的位置信息,因为Transformer本身是一个无序列的模型,它并不像RNN那样具有顺序处理的能力。

位置编码的公式通常分为两种形式:正弦和余弦函数,具体形式如下:

给定位置 pospos 和维度 ii,位置编码的计算公式为:

PE(pos,2i)=sin(pos100002i/d)PE(pos, 2i) = \sin\left(\frac{pos}{10000^{2i/d}}\right)
PE(pos,2i+1)=cos(pos100002i/d)PE(pos, 2i+1) = \cos\left(\frac{pos}{10000^{2i/d}}\right)

其中:

  • pospos 是词在序列中的位置(从0开始)。
  • ii 是位置编码的维度索引(从0到 d1d-1,其中 dd 是位置编码的总维度)。
  • 1000010000 是一个常数,用于控制位置编码的尺度。
  • dd 是位置编码的维度。

解释:

  • 正弦和余弦函数:通过对不同频率的正弦和余弦函数进行编码,不同维度的编码能够在不同的尺度上表示位置差异。这有助于模型捕捉到位置间的相对关系。
  • 频率:随着维度的增加,频率逐渐增大,这意味着低维度的编码表示较大范围的位置信息,而高维度的编码则表示较小范围的位置信息。

这种设计使得位置编码可以为每个词提供一个唯一的、非线性变化的表示,从而帮助Transformer模型理解输入序列的顺序信息。

使用位置编码:

位置编码通常与输入的词向量相加,生成最终的输入表示:

Inputfinal=Inputembedding+Positional Encoding\text{Input}_{\text{final}} = \text{Input}_{\text{embedding}} + \text{Positional Encoding}

这种加和方式使得模型可以同时利用词语的语义信息和其在序列中的位置。

向量的旋转

向量旋转的数学公式基于二维平面中的旋转矩阵,其表达式如下:

假设一个二维向量 v=[xy]\mathbf{v} = \begin{bmatrix} x \\ y \end{bmatrix},我们希望将它绕原点逆时针旋转一个角度 θ\theta。旋转后的向量 v\mathbf{v'} 可通过以下公式计算:

v=R(θ)v\mathbf{v'} = R(\theta) \cdot \mathbf{v}

其中旋转矩阵 R(θ)R(\theta) 的定义是:

R(θ)=[cosθsinθsinθcosθ]R(\theta) = \begin{bmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{bmatrix}

将公式展开,结果为:

v=[cosθsinθsinθcosθ][xy]=[xcosθysinθxsinθ+ycosθ]\mathbf{v'} = \begin{bmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{bmatrix} \cdot \begin{bmatrix} x \\ y \end{bmatrix} = \begin{bmatrix} x\cos\theta - y\sin\theta \\ x\sin\theta + y\cos\theta \end{bmatrix}

RoPE 旋转位置编码

RoPE(Rotary Position Embedding) 中,位置编码的核心思想是通过旋转变换将位置信息融入到输入向量中,而不是直接通过加法的方式。

RoPE 的公式如下:

给定位置 pp 和维度索引 ii,我们通过旋转变换操作将输入的特征向量进行编码。具体公式如下:

输入向量表示

假设输入向量为 x=[x1,x2,,xd]x = [x_1, x_2, \ldots, x_d],其中 dd 是特征向量的维度。RoPE 将 xx 中每两个相邻维度视为一对,并施加旋转操作。

RoPE 的旋转公式

对于每个位置 pp,输入向量 xx 中的每对维度 (x2i,x2i+1)(x_{2i}, x_{2i+1}) 进行如下旋转操作:

RoPE(x,p)=[x2icos(θp)x2i+1sin(θp)x2isin(θp)+x2i+1cos(θp)]\text{RoPE}(x, p) = \begin{bmatrix} x_{2i} \cos(\theta_p) - x_{2i+1} \sin(\theta_p) \\ x_{2i} \sin(\theta_p) + x_{2i+1} \cos(\theta_p) \end{bmatrix}

其中:

θp=p100002i/d\theta_p = \frac{p}{10000^{2i/d}}

解释

  1. 旋转角度 θp\theta_p:与 Transformer 中的位置编码类似,频率 1100002i/d\frac{1}{10000^{2i/d}} 控制了旋转的幅度,位置 pp 影响了旋转角度。
  2. 偶数维度 x2ix_{2i}:施加 cos\cossin\sin 的旋转变换。
  3. 奇数维度 x2i+1x_{2i+1}:配合偶数维度的旋转变换,形成二维平面上的旋转效果。

RoPE 整体公式

RΘ,mdx=[x0x1x2x3xd2xd1][cos(mθ0)cos(mθ0)cos(mθ1)cos(mθ1)cos(mθd/21)cos(mθd/21)]+[x1x0x3x2xd1xd2][sin(mθ0)sin(mθ0)sin(mθ1)sin(mθ1)sin(mθd/21)sin(mθd/21)]\mathbf{R}_{\Theta, m}^d \mathbf{x} = \begin{bmatrix} x_0 \\ x_1 \\ x_2 \\ x_3 \\ \vdots \\ x_{d-2} \\ x_{d-1} \end{bmatrix} \otimes \begin{bmatrix} \cos(m\theta_0) \\ \cos(m\theta_0) \\ \cos(m\theta_1) \\ \cos(m\theta_1) \\ \vdots \\ \cos(m\theta_{d/2-1}) \\ \cos(m\theta_{d/2-1}) \end{bmatrix} + \begin{bmatrix} -x_1 \\ x_0 \\ -x_3 \\ x_2 \\ \vdots \\ -x_{d-1} \\ x_{d-2} \end{bmatrix} \otimes \begin{bmatrix} \sin(m\theta_0) \\ \sin(m\theta_0) \\ \sin(m\theta_1) \\ \sin(m\theta_1) \\ \vdots \\ \sin(m\theta_{d/2-1}) \\ \sin(m\theta_{d/2-1}) \end{bmatrix}
  1. RΘ,mdx\mathbf{R}_{\Theta, m}^d \mathbf{x}:旋转位置编码后的向量。
  2. x\mathbf{x}:输入向量 x=[x0,x1,,xd1]\mathbf{x} = [x_0, x_1, \ldots, x_{d-1}]
  3. \otimes:逐元素乘法操作。
  4. cos(mθi)\cos(m\theta_i)sin(mθi)\sin(m\theta_i):分别为旋转角的正余弦分量,定义为:
    θi=p100002i/d\theta_i = \frac{p}{10000^{2i/d}}

RoPE 理解

1. 频率越低,对相对位置越不敏感

在 RoPE 中,低频成分对应的是公式中 ii 较小(即较低的维度),此时:

1100002i/d\frac{1}{10000^{2i/d}}

的值较大,导致 θp\theta_p 的变化很慢(角度变化较小)。这种慢速变化对应于较长周期的正弦和余弦波,位置编码的相邻值之间差异不大。

  • 直观理解:低频成分对序列中长距离位置之间的变化较为稳定,能够更好地捕获远距离依赖关系。例如:句首单词如何影响句尾单词的关系。

2. 高频:短距离依赖

在 RoPE 中,高频成分对应的是公式中 ii 较大(即较高的维度),此时:

1100002i/d\frac{1}{10000^{2i/d}}

的值较小,导致 θp\theta_p 的变化很快(角度变化较大)。这种快速变化对应于较短周期的正弦和余弦波,位置编码的相邻值之间差异显著。

  • 直观理解:高频成分对序列中短距离的位置变化更敏感,能够精确捕捉局部上下文之间的依赖关系。例如:单词与其前后邻近单词的关系。

3. 旋转操作的作用

RoPE 的旋转操作将输入特征向量的各个维度进行正弦和余弦的加权处理,让模型能够利用高频和低频成分来捕获不同尺度的位置信息:

  • 高频部分的旋转(维度较高):赋予模型捕捉局部依赖的能力。
  • 低频部分的旋转(维度较低):赋予模型捕捉远距离依赖的能力。

通过将这些高频和低频成分在旋转后的结果中叠加起来,RoPE 能够让 Transformer 既关注短距离模式(局部结构),也能理解长距离关系(全局依赖)。

如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!