Moshi 论文解析

Moshi 结合了一个大规模文本 LLM（Helium）和一个小型音频语言模型，实现了语音到语音的直接理解和生成。通过分层流式架构和多流音频处理，模型首次实现了全双工对话能力（可以在边输出对话的时候，同时还在监听说话人说话，可以做到打断）。

Moshi 是一款多流式语音到语音的 Transformer 模型，凭借其创新的架构（如图 1 所示），能够实现与用户的全双工语音对话。

Moshi 构建于 Helium 之上，Helium 是一款我们从零开始构建的文本大语言模型（见第 3.2 节），通过依赖高质量的文本数据来为模型提供强大的推理能力。

我们还提出了 Inner Monologue（见第 3.4.4 节），一种训练和推理过程，在此过程中，我们将文本和音频标记联合建模。这使得模型能够充分利用文本模态所传递的知识，同时保持语音到语音的系统特性。

为了实现实时对话，我们从一开始就将 Moshi 设计为多流架构（见第 3.4.3 节）：该模型能够同时与用户讲话和倾听，不需要显式地建模说话者轮次。此外，为了以高质量和高效的方式捕捉输入的用户音频并输出 Moshi 的语音，我们提出了 Mimi（见第 3.3 节），一种神经音频编解码器，它通过使用残差向量量化和知识蒸馏，将语义和声学信息结合成一个单一的标记器。为了联合建模来自 Moshi 和用户的音频流以及 Moshi 的文本标记，我们依赖于兼容流式推理的 Depth Transformer（见第 3.4.1 和 3.4.2 节）。

Mimi模型架构图如下，是一个编解码模型，用对抗损失+潜空间的余弦损失。潜空间的离散声学标记会被用到Helium模型里去，也会被用于后期的音频解码器里生成音频。

技术报告太长了，全是自己做的模型，昂贵的数据，昂贵的模型。

用户输入语音，这一套下来，因为存在内部的Helium去自省，输出将会有条有理。而Mimi解码后的音频就可以给人听了。输入语音，输出也是语音。