为什么在获取输入词向量之后需要对矩阵乘以embedding size的开方？

在自然语言处理(NLP)任务中，词向量（Word Embedding）是一种将单词表示为固定大小向量的技术，通常使用的方法包括Word2Vec、GloVe和Transformer中的embedding层。无论使用哪种方法，将输入转化为词向量后，通常需要对其做归一化或缩放处理，而其中一种常见操作是在获取词向量矩阵后，乘以embedding size的开方。本文将深入探讨这种操作的原因与意义，并通过公式和代码示例详细解释。

1. 背景概述

在NLP模型（例如Transformer）中，词嵌入矩阵（embedding matrix）是一个形状为 $(V, d)$ 的矩阵，其中 $V$ 表示词汇量（vocabulary size）， $d$ 表示词向量的维度（embedding size）。假设输入序列的词汇索引为 $X = [x_1, x_2, \ldots, x_n]$ ，则词向量矩阵的提取可以表示为：

E_X = [e_{x_1}, e_{x_2}, \ldots, e_{x_n}]

其中， $e_{x_i}$ 表示输入单词 $x_i$ 对应的词向量。通常， $e_{x_i}$ 的范数会对模型的稳定性和收敛性产生影响，因此需要进一步缩放。本文将分析为何选择乘以embedding size的开方来进行缩放。

2. 乘以embedding size开方的原因

在实际应用中，为了保证模型训练的稳定性，并防止梯度爆炸或消失等问题，我们需要控制词向量的范数。以下两个因素会影响我们选择将词向量矩阵乘以embedding size的开方：

2.1 保持稳定的激活值

在模型前向传播过程中，输入到下一层的激活值往往会随着网络深度增加而逐渐放大或者缩小。尤其是在层数较多的深度模型中，词嵌入矩阵通常在后续的计算中会涉及加和操作（如在Self-Attention中使用）。为了稳定这些值的范围，常对词向量缩放至特定范围。

2.2 减少Variance Drift

当embedding size较大时，词向量的均方差（variance）也随之增加。为了消除这个影响，需要将词向量缩放至较小范围内，以降低variance。通常情况下，我们乘以embedding size的开方，即：

\sqrt{d}

因为embedding矩阵中的每个词向量的维度数量为 $d$ ，在大部分深度学习模型中，通过乘以 $\sqrt{d}$ 可以确保输出向量在训练时保持稳定的方差，使模型更易于收敛。

3. 公式推导

假设embedding矩阵中的向量均为独立同分布的随机变量，均值为 $0$ ，方差为 $1$ ，词向量维度为 $d$ ，则每个词向量的均方差（Variance）为：

\mathrm{Var}(e_{x_i}) = d \cdot \mathrm{Var}(e_{x_i,j}) = d

为了消除维度对方差的影响，我们乘以 $\frac{1}{\sqrt{d}}$ ，使得缩放后的方差为1：

\mathrm{Var}(e_{x_i} \times \frac{1}{\sqrt{d}}) = d \cdot \frac{1}{d} = 1

这样可以使得embedding矩阵输出值更稳定。

4. 代码实现

在实际编码中，我们可以通过以下代码实现这个缩放过程：

python
展开代码
import torch
import torch.nn as nn

# 假设词汇表大小为10000，embedding size为512
vocab_size = 10000
embedding_size = 512

# 初始化embedding层
embedding_layer = nn.Embedding(vocab_size, embedding_size)

# 输入索引序列
input_sequence = torch.LongTensor([1, 2, 3, 4])

# 获取词向量
embedded = embedding_layer(input_sequence)

# 乘以embedding size的开方
scaled_embedding = embedded * (embedding_size ** 0.5)

上述代码中，我们首先定义了一个大小为 $(10000, 512)$ 的embedding矩阵，并在获取词向量后乘以 $\sqrt{512}$ ，实现了对embedding的缩放操作。

5. 总结

对词嵌入矩阵乘以embedding size的开方是为了在模型中保持输入稳定的激活值，从而提高模型的训练稳定性。通过这种缩放操作，能够有效减少variance drift，使模型更易收敛，同时提升模型的稳定性。上述方法在许多深度学习框架中被广泛应用，尤其是自注意力模型（Self-Attention）中，以确保模型训练时的梯度不会因为输入特征的方差变化而受到过多干扰。

目录