new_special_tokens

esc

请输入并搜索

new_special_tokens

2025-07-16

00

huggingface tokenizer special tokens 参数配置模型微调 tokenizer性能

目录

https://llamafactory.readthedocs.io/en/latest/advanced/arguments.html

参数解释：

1. use_fast_tokenizer (默认: True)

功能: 控制是否使用HuggingFace的Fast Tokenizer
作用:
- Fast Tokenizer基于Rust实现，速度比Python版本快很多
- 提供更好的性能和内存效率
- 支持并行处理，在大规模数据处理时优势明显
建议: 通常保持默认的True，除非遇到兼容性问题

2. resize_vocab (默认: False)

功能: 控制是否调整词汇表和嵌入层的大小
使用场景:
- 当你添加了新的special tokens时需要设置为True
- 当原模型的词汇表不包含你需要的tokens时
- 进行特定领域的微调，需要扩展词汇表时
注意: 调整词汇表会改变模型结构，新增的embedding需要重新训练

3. split_special_tokens (默认: False)

功能: 控制在分词时是否将special token进一步分割
作用:
- False: special tokens作为整体处理，不会被进一步分割
- True: special tokens可能被分割成更小的子tokens
建议: 通常保持False，确保special tokens的完整性

4. new_special_tokens (默认: None)

功能: 添加新的special tokens到tokenizer中
格式: 多个tokens用逗号分隔，如: "<task1>,<task2>,<custom>"
使用场景:
- 多任务学习时为不同任务添加标识符
- 添加特定的控制tokens
- 为特定应用场景定制tokens
注意: 添加新tokens后通常需要将resize_vocab设为True

这些参数通常配合使用，特别是当你需要添加新的special tokens时，需要同时设置new_special_tokens和resize_vocab=True。

如果对你有用的话，可以打赏哦

打赏

ali pay

wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外，均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改，但必须注明出处并提供原作者链接。许可协议。转载请注明出处！

< 如何向 Transformers 模型词表中添加新 token

阶跃星辰 stepfun api >

目录