2024-11-26
DL论文
00

目录

a. SPIRIT LM 的架构
b. 语音-文本交替方案
c. 表达性语音的 Token 处理
总结

https://arxiv.org/abs/2402.05755

图中的内容展示了 SPIRIT LM(Speech-Text Interleaved Representation for Iterative Training Language Model) 的体系结构和工作流程,通过三个子图(a、b、c)详细说明了模型的训练架构和数据处理方式:


a. SPIRIT LM 的架构

  • 左侧部分:编码器 (Encoder)
    输入可以是语音(speech)或文本(text),通过专门的编码器模块处理后,编码成相应的 tokens。
  • 中间部分:Llama 2 模型
    中心是一个经过训练的 Llama 2 模型,用于进行下一步 token 的预测。模型接受文本和语音的混合输入,进行统一建模。
  • 右侧部分:解码器 (Decoder)
    输出是与输入模态匹配的内容,语音输入会解码为语音,文本输入则解码为文本。

SPIRIT LM 的训练分为:

  1. 仅文本训练 (Text-only sequences)。
  2. 仅语音训练 (Speech-only sequences)。
  3. 语音-文本交替训练 (Interleaved speech-text sequences)。

b. 语音-文本交替方案

这一部分详细说明了如何将语音和文本结合为统一的输入序列。

  • 语音编码

    • 将语音片段转化为多个语音 token(粉红色),包括:
      • Hubert(H):代表语音特征的类别化表示。
      • F0(F):音高(Pitch)特征。
      • Style(Y):语音风格相关信息(如语调)。
  • 文本编码

    • 文本被编码为蓝色 token,采用字节对编码(BPE)。
  • 模态切换标记

    • 通过特殊标记 [TEXT][SPEECH] 区分文本和语音。每当文本和语音在序列中切换时,会插入模态标记。

c. 表达性语音的 Token 处理

  • Token 的来源
    语音的三种类型的 token(Hubert、F0、Style)被用来捕捉语音的内容和表达特征。

  • Token 的处理步骤

    1. 去重 (Deduplication)
      在每种模态内,将相邻的重复 token 合并。例如,40ms 的重复内容只保留一个。
    2. 交替插入 (Interleaving)
      将去重后的语音 token 和文本 token 按照时间顺序交错排列,以对齐文本与语音的时间边界。

最终,这种方法使得语音和文本的特征能够被整合到一个统一的序列中。


总结

  • SPIRIT LM 是一个既可以处理文本也可以处理语音的多模态语言模型。它通过对语音和文本的统一 token 化表示,以及交替插入策略,使得模型能同时处理两种模态,具有较强的灵活性和表达能力。
如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!