new_special_tokens
2025-07-16
深度学习
00

目录

1. usefasttokenizer (默认: True)
2. resize_vocab (默认: False)
3. splitspecialtokens (默认: False)
4. newspecialtokens (默认: None)

https://llamafactory.readthedocs.io/en/latest/advanced/arguments.html

参数解释:

1. use_fast_tokenizer (默认: True)

  • 功能: 控制是否使用HuggingFace的Fast Tokenizer
  • 作用:
    • Fast Tokenizer基于Rust实现,速度比Python版本快很多
    • 提供更好的性能和内存效率
    • 支持并行处理,在大规模数据处理时优势明显
  • 建议: 通常保持默认的True,除非遇到兼容性问题

2. resize_vocab (默认: False)

  • 功能: 控制是否调整词汇表和嵌入层的大小
  • 使用场景:
    • 当你添加了新的special tokens时需要设置为True
    • 当原模型的词汇表不包含你需要的tokens时
    • 进行特定领域的微调,需要扩展词汇表时
  • 注意: 调整词汇表会改变模型结构,新增的embedding需要重新训练

3. split_special_tokens (默认: False)

  • 功能: 控制在分词时是否将special token进一步分割
  • 作用:
    • False: special tokens作为整体处理,不会被进一步分割
    • True: special tokens可能被分割成更小的子tokens
  • 建议: 通常保持False,确保special tokens的完整性

4. new_special_tokens (默认: None)

  • 功能: 添加新的special tokens到tokenizer中
  • 格式: 多个tokens用逗号分隔,如: "<task1>,<task2>,<custom>"
  • 使用场景:
    • 多任务学习时为不同任务添加标识符
    • 添加特定的控制tokens
    • 为特定应用场景定制tokens
  • 注意: 添加新tokens后通常需要将resize_vocab设为True

这些参数通常配合使用,特别是当你需要添加新的special tokens时,需要同时设置new_special_tokensresize_vocab=True

如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!