The client socket has timed out after 900000ms while trying to connect to (10.130.18.56, 58509).
展开代码实际batch_size = per_device_train_batch_size × gradient_accumulation_steps × 设备数量 您的设置: - per_device_train_batch_size = 12 - gradient_accumulation_steps = 2 - 假设8张卡:实际batch_size = 12 × 2 × 8 = 192
data_shared_file_system 参数的作用和使用位置。
data_shared_file_system 参数详解python展开代码# src/llamafactory/hparams/data_args.py 第135-138行
data_shared_file_system: bool = field(
default=False,
metadata={"help": "Whether or not to use a shared file system for the datasets."},
)
默认值: False
类型: 布尔值
作用: 控制是否使用共享文件系统来处理数据集
llamafactory/hparams/data_args.py
个人感觉,不太好用,我还没到达使用这个的场景。随便看看Streaming 模式。
--preprocessing_num_workers 96
CACHE_DIR 是共享存储路径。
bash展开代码# 三个环境变量指定到共享存储路径。
-e HF_DATASETS_CACHE=${CACHE_DIR}/HF_DATASETS_CACHE \
-e HUGGINGFACE_HUB_CACHE=${CACHE_DIR}/HUGGINGFACE_HUB_CACHE \
-e TRANSFORMERS_CACHE=${CACHE_DIR}/TRANSFORMERS_CACHE \
# 2个训练参数指定到共享存储路径。
--cache_dir ${CACHE_DIR}/cache_dir \
--tokenized_path ${CACHE_DIR}/tokenized_cache \
# 1个训练参数指定共享存储
--data_shared_file_system true \
以下是 VS Code 常用快捷键(适用于 Windows/Linux,Mac 用户将 Ctrl 替换为 Cmd):
| 快捷键 | 功能 |
|---|---|
Ctrl + N | 新建文件 |
Ctrl + O | 打开文件 |
Ctrl + S | 保存当前文件 |
Ctrl + Shift + S | 另存为 |
Ctrl + W | 关闭当前标签页 |
Ctrl + Shift + T | 重新打开已关闭的标签页 |
Ctrl + P | 快速打开文件(输入文件名搜索) |
Ctrl + , | 打开设置 |
在大模型训练过程中,意外中断(如服务器重启、显存溢出等)是常见问题。如何优雅地恢复训练进度,避免从头再来?LLamaFactory 基于 HuggingFace Transformers,天然支持断点续训(resume from checkpoint)。本文以 Qwen2VL 为例,详细介绍其断点续训机制、配置方法及源码实现位置。
要让Linux系统更好地支持中文字符处理,您可以安装以下软件包:
bash展开代码sudo apt-get update sudo apt-get install -y locales fonts-noto-cjk language-pack-zh-hans
然后配置系统的语言环境:
bash展开代码sudo locale-gen zh_CN.UTF-8 sudo update-locale LANG=zh_CN.UTF-8 LC_ALL=zh_CN.UTF-8
对于Python程序处理中文文件名的问题,您可以确保系统环境变量设置正确:
bash展开代码export LANG=zh_CN.UTF-8
export LC_ALL=zh_CN.UTF-8
您也可以使用locale命令检查当前系统的语言环境设置:
bash展开代码locale