下载模型
python展开代码curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | bash
apt-get install git-lfs
git clone https://huggingface.co/Qwen/Qwen2.5-3B-Instruct
模型路径:
bash展开代码/mnt/jfs6/model/Qwen2.5-3B-Instruct
bash展开代码MODEL_NAME_OR_PATH="/mnt/jfs6/model/Qwen2.5-3B-Instruct"
JOBNAME=shai1014-11
CACHE_DIR=/mnt/jfs/cache/$JOBNAME
OUTPUT_DIR="/mnt/jfs/output/$JOBNAME"
SWANLAB_NAME=$JOBNAME
export SWANLAB_API_KEY=pM7Xvs5OS2EeXPO5gKXfJ
export SWANLAB_LOG_DIR=/swanlab_log
export SWANLAB_MODE=cloud
llamafactory-cli train \
--model_name_or_path $MODEL_NAME_OR_PATH \
--dataset_dir /app/data \
--cache_dir ${CACHE_DIR}/cache_dir \
--tokenized_path ${CACHE_DIR}/tokenized_cache \
--overwrite_cache false \
--dataset alpaca_en_demo \
--template qwen \
--output_dir $OUTPUT_DIR \
--per_device_train_batch_size 4 \
--gradient_accumulation_steps 1 \
--image_max_pixels 451584 \
--video_max_pixels 16384 \
--trust_remote_code true \
--stage sft \
--do_train true \
--finetuning_type full \
--freeze_vision_tower false \
--freeze_multi_modal_projector false \
--freeze_language_model false \
--cutoff_len 2048 \
--preprocessing_num_workers 32 \
--preprocessing_batch_size 32 \
--dataloader_num_workers 32 \
--logging_steps 10 \
--plot_loss True \
--overwrite_output_dir false \
--save_only_model false \
--learning_rate 1.0e-6 \
--num_train_epochs 1000.0 \
--save_steps 500 \
--lr_scheduler_type cosine \
--bf16 True \
--flash_attn auto \
--report_to none \
--use_swanlab True \
--swanlab_project $SWANLAB_NAME \
--swanlab_mode cloud \
--save_strategy steps \
--data_shared_file_system true \
--ddp_timeout 180000000
本文作者:Dong
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!