目录
a. SPIRIT LM 的架构
b. 语音-文本交替方案
c. 表达性语音的 Token 处理
总结
https://arxiv.org/abs/2402.05755
图中的内容展示了 SPIRIT LM(Speech-Text Interleaved Representation for Iterative Training Language Model) 的体系结构和工作流程,通过三个子图(a、b、c)详细说明了模型的训练架构和数据处理方式:
a. SPIRIT LM 的架构
- 左侧部分:编码器 (Encoder)
输入可以是语音(speech)或文本(text),通过专门的编码器模块处理后,编码成相应的 tokens。
- 中间部分:Llama 2 模型
中心是一个经过训练的 Llama 2 模型,用于进行下一步 token 的预测。模型接受文本和语音的混合输入,进行统一建模。
- 右侧部分:解码器 (Decoder)
输出是与输入模态匹配的内容,语音输入会解码为语音,文本输入则解码为文本。
SPIRIT LM 的训练分为:
- 仅文本训练 (Text-only sequences)。
- 仅语音训练 (Speech-only sequences)。
- 语音-文本交替训练 (Interleaved speech-text sequences)。
b. 语音-文本交替方案
这一部分详细说明了如何将语音和文本结合为统一的输入序列。
-
语音编码
- 将语音片段转化为多个语音 token(粉红色),包括:
- Hubert(H):代表语音特征的类别化表示。
- F0(F):音高(Pitch)特征。
- Style(Y):语音风格相关信息(如语调)。
-
文本编码
- 文本被编码为蓝色 token,采用字节对编码(BPE)。
-
模态切换标记
- 通过特殊标记
[TEXT]
和 [SPEECH]
区分文本和语音。每当文本和语音在序列中切换时,会插入模态标记。
c. 表达性语音的 Token 处理
最终,这种方法使得语音和文本的特征能够被整合到一个统一的序列中。
总结
- SPIRIT LM 是一个既可以处理文本也可以处理语音的多模态语言模型。它通过对语音和文本的统一 token 化表示,以及交替插入策略,使得模型能同时处理两种模态,具有较强的灵活性和表达能力。
本文作者:Dong
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。
许可协议。转载请注明出处!