2025-07-19
LLaMA-Factory
000

详细分析:ShareGPT + VLM + 指令监督微调格式

1. 你的数据格式分析

你提供的数据格式:

json
展开代码
{ "image": "000443568.jpg", "width": 700, "height": 700, "conversations": [ { "from": "human", "value": "Write a detailed description of this image..." }, { "from": "gpt", "value": "The image is of a pair of silver earrings..." } ] }

问题分析

  1. 缺少 <image> 标记:在 conversations 中没有 <image> 占位符
  2. 图片路径格式image 字段是单个字符串,但需要与对话中的 <image> 标记对应
  3. 额外字段widthheight 字段在 LLaMA-Factory 中不会被使用
2025-07-19
Linux运维
000

在 tmux 中,默认的鼠标滚轮行为是进入 复制模式(copy-mode) 来查看历史输出(终端日志)。如果你希望 鼠标滚轮向上 直接滚动查看之前的终端日志(而不是触发其他操作),可以这样优化配置:


🔧 解决方案(针对查看终端日志)

1. 编辑 ~/.tmux.conf(如果不存在就新建)

bash
展开代码
nano ~/.tmux.conf # 或者用 vim

2. 添加以下配置(适用于 tmux 3.2a)

sh
展开代码
# 启用鼠标支持(包括滚轮、窗格选择) set -g mouse on # 鼠标滚轮向上:进入复制模式并向上滚动(查看历史日志) bind -n WheelUpPane { if -F "#{pane_in_mode}" { send-keys -M # 如果已在复制模式,继续滚动 } { copy-mode -e # 进入复制模式 send-keys -M # 模拟向上滚动 } } # 鼠标滚轮向下:退出复制模式或向下滚动 bind -n WheelDownPane { if -F "#{pane_in_mode}" { send-keys -M # 如果已在复制模式,继续滚动 } { send-keys -M # 否则直接发送滚轮事件(可能被终端处理) } } # 左键拖动:选择文本或调整窗格(根据上下文自动判断) bind -n MouseDrag1Pane if -F "#{mouse_any_flag}" { if -F "#{pane_in_mode}" { # 在复制模式中:继续选择文本 send-keys -M } { # 不在复制模式:调整窗格大小或交互 select-pane -M } } # 左键单击:激活窗格或开始选择 bind -n MouseDown1Pane select-pane -M \; send-keys -M # 确保终端兼容性(防止鼠标事件被拦截) set -g terminal-overrides 'xterm*:smcup@:rmcup@'
2025-07-19
Linux运维
000

这个指令看zip文件里的文件数量,最后一行显示就是:

bash
展开代码
unzip -l img.zip | tail -n 10

比如显示:

bash
展开代码
--------- ------- 228209166917 1031993 files

解压后,假如解压到img目录,这个指令查看img目录下多少个文件:

bash
展开代码
find img -type f | wc -l

比如显示:

bash
展开代码
1031992

这是对的,举例来说因为里面有父目录信息:

bash
展开代码
root@gpu-a800-0051:~# unzip -l test.zip | tail -n 10 Archive: test.zip Length Date Time Name --------- ---------- ----- ---- 0 2025-07-19 01:23 test/ 0 2025-07-19 01:23 test/1 0 2025-07-19 01:23 test/2 --------- ------- 0 3 files
2025-07-18
深度学习
000

下载模型:

bash
展开代码
modelscope download Qwen/Qwen2.5-VL-7B-Instruct --local_dir ./Qwen/Qwen2.5-VL-7B-Instruct

模型位置:

bash
展开代码
/mnt/jfs/model/Qwen/Qwen2.5-VL-7B-Instruct-train2-28488x/train2-28488x

开启api:

bash
展开代码
python -m vllm.entrypoints.openai.api_server \ --model /mnt/jfs/model/Qwen/Qwen2.5-VL-7B-Instruct-train2-28488x/train2-28488x \ --gpu_memory_utilization 0.9 \ --data-parallel-size 2 \ --tensor_parallel_size 1 \ --served-model-name gpt \ --port 8000
2025-07-17
Linux运维
000

重启大法好。

powershell:

bash
展开代码
wsl --shutdown
bash
展开代码
wsl
2025-07-17
Linux运维
000

JuiceFS 详细介绍

1. 基本概念

JuiceFS 是一款高性能分布式文件系统,专为云环境设计,核心特点是将对象存储缓存层结合,提供接近本地文件系统的性能体验。

核心架构

展开代码
[客户端应用] ← POSIX/FUSE接口 → [JuiceFS 客户端] ↓ [元数据引擎 (Redis/MySQL等)] ↓ [对象存储 (S3/OSS/HDFS等)]
2025-07-16
深度学习
000

https://api.stepfun.com/v1

claude-sonnet-4-20250514

2025-07-16
深度学习
000
2025-07-16
深度学习
000
2025-07-16
深度学习
000

分析 tokenizer_config.json 文件的设计,以及如何添加特殊token。结合代码来详细讲解 tokenizer_config.json 的设计原理以及如何添加特殊token。