2024-10-13
深度学习
00

Transformer中的前馈神经网络详解:结构、激活函数与优缺点

Transformer模型凭借其高效并行计算的特性,已经在自然语言处理领域取得了显著成果。Transformer的核心由多层自注意力机制和前馈神经网络(Feed-Forward Neural Network, FFN)组成。前馈神经网络在Transformer块中负责对每个位置的特征进行非线性转换,本文将详细描述Transformer中的前馈神经网络的结构、所用激活函数及其优缺点。

2024-10-13
深度学习
00

Transformer模型中的LayerNorm与BatchNorm:为什么选择LayerNorm?

Transformer模型作为自然语言处理和机器翻译任务中的重要架构,其每个模块中使用的正则化方法对模型性能有着显著影响。通常,Transformer选择使用Layer Normalization(LayerNorm)而非Batch Normalization(BatchNorm)。本文将深入分析LayerNorm与BatchNorm的差异、LayerNorm在Transformer中的位置以及为何LayerNorm更适合Transformer模型。

2024-10-13
深度学习
00

为什么在获取输入词向量之后需要对矩阵乘以embedding size的开方?

在自然语言处理(NLP)任务中,词向量(Word Embedding)是一种将单词表示为固定大小向量的技术,通常使用的方法包括Word2Vec、GloVe和Transformer中的embedding层。无论使用哪种方法,将输入转化为词向量后,通常需要对其做归一化或缩放处理,而其中一种常见操作是在获取词向量矩阵后,乘以embedding size的开方。本文将深入探讨这种操作的原因与意义,并通过公式和代码示例详细解释。

2024-10-13
深度学习
00

Transformer 的 Encoder 模块详解

Transformer 是一种基于注意力机制的神经网络结构,由 Encoder 和 Decoder 两个主要部分组成。本文将深入分析 Transformer 的 Encoder 模块,详细讲解其内部结构、公式和实现细节,并提供相应的代码示例,帮助读者全面理解 Transformer Encoder 模块的工作原理。

2024-10-13
深度学习
00

为什么在多头注意力中需要对每个 Head 进行降维

在 Transformer 模型中,多头注意力机制(Multi-Head Attention)是一个非常重要的组成部分。它通过并行地计算多个注意力头(Attention Head)来增强模型的表示能力。然而,为了控制计算复杂度和内存使用量,通常对每个注意力头进行降维。本文将详细分析这种设计背后的原因,并通过公式和代码展示多头注意力的实现过程。