目录
1. usefasttokenizer (默认: True)
2. resize_vocab (默认: False)
3. splitspecialtokens (默认: False)
4. newspecialtokens (默认: None)
https://llamafactory.readthedocs.io/en/latest/advanced/arguments.html
参数解释:
1. use_fast_tokenizer (默认: True)
- 功能: 控制是否使用HuggingFace的Fast Tokenizer
- 作用:
- Fast Tokenizer基于Rust实现,速度比Python版本快很多
- 提供更好的性能和内存效率
- 支持并行处理,在大规模数据处理时优势明显
- 建议: 通常保持默认的True,除非遇到兼容性问题
2. resize_vocab (默认: False)
- 功能: 控制是否调整词汇表和嵌入层的大小
- 使用场景:
- 当你添加了新的special tokens时需要设置为True
- 当原模型的词汇表不包含你需要的tokens时
- 进行特定领域的微调,需要扩展词汇表时
- 注意: 调整词汇表会改变模型结构,新增的embedding需要重新训练
3. split_special_tokens (默认: False)
- 功能: 控制在分词时是否将special token进一步分割
- 作用:
- False: special tokens作为整体处理,不会被进一步分割
- True: special tokens可能被分割成更小的子tokens
- 建议: 通常保持False,确保special tokens的完整性
4. new_special_tokens (默认: None)
- 功能: 添加新的special tokens到tokenizer中
- 格式: 多个tokens用逗号分隔,如:
"<task1>,<task2>,<custom>"
- 使用场景:
- 多任务学习时为不同任务添加标识符
- 添加特定的控制tokens
- 为特定应用场景定制tokens
- 注意: 添加新tokens后通常需要将
resize_vocab
设为True
这些参数通常配合使用,特别是当你需要添加新的special tokens时,需要同时设置new_special_tokens
和resize_vocab=True
。
本文作者:Dong
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。
许可协议。转载请注明出处!