2025-02-19
深度学习
00
2025-02-19
DL论文
00

传统专家混合模型(Mixture-of-Experts, MoE)在 Transformer 中的实现

在标准 Transformer 模型中,每一层包含一个自注意力模块(Self-Attention)和一个前馈神经网络(FFN)。MoE 的核心思想是用多个专家(Expert)替代 FFN,每个专家本身也是一个 FFN,但通过动态路由机制(门控网络)选择对每个输入 token 最相关的少数专家进行计算。这种设计可以在不显著增加计算量的情况下,大幅提升模型容量。

2025-02-19
DL论文
00

一、DeepSeek LLM

DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

https://arxiv.org/abs/2401.02954

2024 年 1 月发布。使用 GQA 优化推理成本;采用多步学习速率调度器替代余弦调度器;运用 HAI-LLM 训练框架优化训练基础设施;提出新的缩放分配策略。使用 2 万亿字符双语数据集预训练,67B 模型性能超越 LLaMA-2 70B,Chat 版本优于 GPT-3.5。

2025-02-17
DL论文
00
2025-02-17
DL论文
00

https://arxiv.org/abs/2410.13863

摘要

论文研究了文本生成图像背景下的缩放问题,主要关注两个关键因素:模型使用离散还是连续的标记,以及标记是以随机顺序还是固定光栅顺序生成,使用的是类似于BERT还是GPT的转换器架构。

基于连续标记的模型相比于使用离散标记的模型,在视觉质量上显著更佳。

此外,生成顺序和注意力机制显著影响GenEval分数:随机顺序模型相比于光栅顺序模型获得了显著更好的GenEval分数。

受这些发现的启发,我们训练了Fluid,一个基于连续标记的随机顺序自回归模型。

Fluid 10.5B模型在MS-COCO 30K数据集上实现了新的零样本FID的最先进成绩6.16,并在GenEval基准测试中获得了0.69的总分。

我们希望我们的发现和结果能够鼓励未来的研究工作进一步弥合视觉和语言模型之间的扩展差距。