2026-01-15
工具使用
00

eval $(curl -s http://deploy.i.shaipower.com/httpproxy)

2026-01-13
深度学习
00

image.png

2026-01-12
ms-swift
00

ms-swift export 导出packing数据: 训练时候使用: IMAGEMAXTOKENNUM、maxlength 需要一致 !

2026-01-12
深度学习
00

1. 查找 nvidia-smi → 找到 /usr/local/nvidia/bin/nvidia-smi 2. 添加到 PATH → export PATH="/usr/local/nvidia/bin:$PATH" 3. 查找 CUDA 库 → 找到 /usr/local/nvidia/lib64 4. 设置 LDLIBRARYPATH → export LDLIBRARYPATH="/usr/local/nvidia/lib64...

2026-01-11
ms-swift
00

MS-SWIFT 数据处理流程详解 本文档详细说明从原始数据到训练的完整数据处理流程,包括每个步骤的参数控制和效果说明。 --- 流程概览 --- 详细流程说明 ① 数据加载 (DatasetLoader) 功能:从本地或远程加载原始数据集 相关参数: - dataset: 数据集ID或路径列表 - 格式: datasetid:subset#count - 示例: mmduval 或 /path/to/dataset.json - cu...

2026-01-10
ms-swift
00

MS-SWIFT 数据缓存机制详解 1. 总体缓存架构 MS-SWIFT 的数据缓存分为三个层次: 1. 数据预处理缓存 (HuggingFace Datasets Arrow格式) 2. Packing数据缓存 (Megatron模式专用) 3. 媒体资源缓存 (图片/视频等多模态数据)

2026-01-10
ms-swift
00

ms-swift SFT 训练数据格式指南 一、支持的4种数据格式 ms-swift 通过 AutoPreprocessor 自动识别以下格式: 1. Messages 格式(推荐) 2. ShareGPT 格式 3. Query-Response 格式 4. Alpaca 格式 二、使用方式 --- ms-swift vs LlamaFactory 对比 功能特性对比 ShareGPT 格式对比 LlamaFactory 的 Shar...

2026-01-10
ms-swift
00

Docker 镜像构建指南 📁 核心文件结构 🏗️ 构建类继承关系 ⚙️ SwiftImageBuilder 默认配置 位于 buildimage.py:349-364 🚀 构建命令 准备工作 方式1: 仅生成 Dockerfile (推荐先测试) ✅ 生成的 Dockerfile 在当前目录: ./Dockerfile 方式2: 实际构建并推送 📊 可用参数列表 | 参数 | 说明 | 默认值 | |------|------...

2026-01-09
LLaMA-Factory
00

2026-01-09
LLaMA-Factory
00

LlamaFactory 通过继承 transformers 的 Seq2SeqTrainingArguments 来获得完整的训练参数,无需单独定义。因此,你可以直接在 YAML 配置文件中添加 savetotallimit 参数,它会自动被识别和使用。 具体使用方式 在 YAML 配置文件中设置如下参数: 参数说明 | 参数 | 说明 | | :--- | :--- | | savetotallimit | 设置保留的检查点文件的最...