2026-01-10
ms-swift
00

Docker 镜像构建指南

📁 核心文件结构

展开代码
/data/xiedong/mo
2026-01-09
LLaMA-Factory
00
2026-01-09
LLaMA-Factory
00

LlamaFactory 通过继承 transformersSeq2SeqTrainingArguments 来获得完整的训练参数,无需单独定义。因此,你可以直接在 YAML 配置文件中添加 save_total_limit 参数,它会自动被识别和使用。

具体使用方式

在 YAML 配置文件中设置如下参数:

yaml
展开代码
save_steps: 500 save_strategy: steps save_total_limit: 3 # 最多只保留最近的3个检查点

参数说明

参数说明
save_total_limit设置保留的检查点文件的最大数量。旧的检查点会被自动删除。
save_steps每隔多少步训练保存一次检查点。
save_strategy检查点的保存策略。可选 "steps" (按步数保存)、"epoch" (按轮次保存) 或 "no" (不保存)。
save_only_model如果为 True,则只保存模型权重,不保存优化器状态,以节省空间。
load_best_model_at_end如果为 True,训练结束时自动加载效果最佳的模型。开启后,最佳模型不会被 save_total_limit 删除。

工作流程

  1. 你的配置文件会由 HfArgumentParser 进行解析。
  2. 参数会传递给继承自 transformers.TrainingArgumentsTrainingArguments 类。
  3. Trainer 在训练过程中将根据这些设置自动管理检查点的保存和删除。

注意事项

  • 当同时启用 load_best_model_at_end 时,最佳的模型检查点会被额外保留,不计入 save_total_limit 的限制。
  • 建议将 save_strategy 设置为 "steps" 以配合 save_steps 使用,实现定期的检查点保存。
2026-01-09
LLaMA-Factory
00

根据代码分析,LlamaFactory 支持两种使用 SwanLab 的方式:

方式 1:使用 use_swanlab (推荐)

这是 LlamaFactory 原生支持的方式,配置参数定义在 SwanLabArguments 类中 (src/llamafactory/hparams/finetuning_args.py:404-440):

yaml
展开代码
### SwanLab 配置 use_swanlab: true swanlab_project: run-qwen3vl8b-mmdu-1009 swanlab_mode: cloud # 或 local swanlab_api_key: pM7Xvs5OS2EeXPO5gKXfJ # 建议通过环境变量设置 swanlab_run_name: my_experiment # 可选:实验名称 swanlab_workspace: my_workspace # 可选:工作空间 swanlab_logdir: ./swanlab_logs # 可选:本地日志目录
2026-01-09
工具使用
00
2026-01-09
LLaMA-Factory
00

分布式训练配置方案

针对您的场景(普通Qwen3-VL 8B,4机32卡),我给出最优配置方案:

一、硬件拓扑分析

  • 节点数量:4台机器
  • 单机配置:8卡/机
  • 总计GPU:32卡
  • 节点内带宽:NVLink/NVSwitch (900 GB/s)
  • 节点间带宽:InfiniBand/RoCE (200-400 Gb/s)
  • 核心原则:TP在节点内,PP/DP可跨节点
2026-01-09
LLaMA-Factory
00

LlamaFactory 中 Megatron 启动原理和超参数详解

根据代码分析,我为您详细

2026-01-09
Docker
00
bash
展开代码
sudo apt-get install -y jq
bash
展开代码
# 更清晰的统计 docker image inspect kevinchina/deeplearning:llamafactory0-9-4-base-1-megatron-1-ok-tars1 | jq -r '.[0].RootFS.Layers | length'
2026-01-09
Python
00

使用 Hugging Face API 操作仓库指南

简介

本文介绍如何使用 Hugging Face API 通过 Python 直接操作 Hugging Face 仓库(模型或数据集),包括上传、删除、列出文件等常见操作。这种方法比使用命令行工具更灵活,特别适合批量操作和自动化脚本。

2026-01-08
LLaMA-Factory
00

laolao77/MMDU

https://huggingface.co/datasets/laolao77/MMDU/viewer/MMDU/train?row=0

bash
展开代码
./hfd.sh laolao77/MMDU --dataset --local-dir /data/xiedong/mmdu/