2025-08-01
深度学习
00

指定好 --model_name_or_path,模型存储路径。

指定 --save_only_model false ,不光保存模型,还保存优化器状态等参数。

指定 --overwrite_output_dir false ,可以接续恢复训练。接续恢复训练千万别改参数,不然会引起异常(训练看起来正常其实不正常)。要改参数最好是导出之前模型,然后重新指定 --model_name_or_path 重新训练。

2025-07-31
LLaMA-Factory
00

The client socket has timed out after 900000ms while trying to connect to (10.130.18.56, 58509).

2025-07-31
LLaMA-Factory
00

gradient_accumulation_steps 的作用

基本原理

展开代码
实际batch_size = per_device_train_batch_size × gradient_accumulation_steps × 设备数量 您的设置: - per_device_train_batch_size = 12 - gradient_accumulation_steps = 2 - 假设8张卡:实际batch_size = 12 × 2 × 8 = 192
2025-07-30
LLaMA-Factory
00

data_shared_file_system 参数的作用和使用位置。

data_shared_file_system 参数详解

1. 参数定义

python
展开代码
# src/llamafactory/hparams/data_args.py 第135-138行 data_shared_file_system: bool = field( default=False, metadata={"help": "Whether or not to use a shared file system for the datasets."}, )

默认值: False 类型: 布尔值 作用: 控制是否使用共享文件系统来处理数据集

2025-07-30
LLaMA-Factory
00

llamafactory/hparams/data_args.py

个人感觉,不太好用,我还没到达使用这个的场景。随便看看Streaming 模式。

2025-07-29
LLaMA-Factory
00

--preprocessing_num_workers 96

  • 多进程并行处理:用于数据预处理阶段的多进程并行化
  • 控制并发度:决定同时有多少个进程进行数据预处理
  • 96个进程同时处理数据
  • 每个进程处理一部分数据样本
  • 适用于CPU密集型的数据预处理任务(如tokenization、图片Resize处理)
2025-07-29
LLaMA-Factory
00

CACHE_DIR 是共享存储路径。

bash
展开代码
# 三个环境变量指定到共享存储路径。 -e HF_DATASETS_CACHE=${CACHE_DIR}/HF_DATASETS_CACHE \ -e HUGGINGFACE_HUB_CACHE=${CACHE_DIR}/HUGGINGFACE_HUB_CACHE \ -e TRANSFORMERS_CACHE=${CACHE_DIR}/TRANSFORMERS_CACHE \ # 2个训练参数指定到共享存储路径。 --cache_dir ${CACHE_DIR}/cache_dir \ --tokenized_path ${CACHE_DIR}/tokenized_cache \ # 1个训练参数指定共享存储 --data_shared_file_system true \
2025-07-25
工具使用
00

以下是 VS Code 常用快捷键(适用于 Windows/Linux,Mac 用户将 Ctrl 替换为 Cmd):


基础操作

快捷键功能
Ctrl + N新建文件
Ctrl + O打开文件
Ctrl + S保存当前文件
Ctrl + Shift + S另存为
Ctrl + W关闭当前标签页
Ctrl + Shift + T重新打开已关闭的标签页
Ctrl + P快速打开文件(输入文件名搜索)
Ctrl + ,打开设置

2025-07-22
LLaMA-Factory
00

在大模型训练过程中,意外中断(如服务器重启、显存溢出等)是常见问题。如何优雅地恢复训练进度,避免从头再来?LLamaFactory 基于 HuggingFace Transformers,天然支持断点续训(resume from checkpoint)。本文以 Qwen2VL 为例,详细介绍其断点续训机制、配置方法及源码实现位置。

2025-07-19
Linux运维
00
bash
展开代码
echo 'exec /bin/bash' >> ~/.zshrc