全量微调Qwen2.5-VL-7B-Instruct的参数,用于图片转公式LaTex。
模型地址:https://huggingface.co/Qwen/Qwen2.5-VL-7B-Instruct
数据集:https://modelscope.cn/datasets/AI-ModelScope/LaTeX_OCR/summary
数据集下载,约有1.1G大小数据:
bashmodelscope download --dataset AI-ModelScope/LaTeX_OCR --local_dir AI-ModelScope/LaTeX_OCR
下载这个代码对数据集进行处理:
https://www.dong-blog.fun/code/process_latex_ocr.py
处理后的数据集长这样:
bashAI-ModelScope-convert# ll
total 80868
drwxr-xr-x 7 root root 4096 Apr 7 15:48 ./
drwxr-xr-x 4 root root 4096 Apr 7 15:45 ../
drwxr-xr-x 5 root root 4096 Apr 7 15:48 full/
-rw-r--r-- 1 root root 3769362 Apr 7 15:48 full_test.json
-rw-r--r-- 1 root root 30711801 Apr 7 15:48 full_train.json
-rw-r--r-- 1 root root 3480462 Apr 7 15:48 full_validation.json
drwxr-xr-x 5 root root 4096 Apr 7 15:48 human_handwrite/
drwxr-xr-x 5 root root 4096 Apr 7 15:48 human_handwrite_print/
-rw-r--r-- 1 root root 23013 Apr 7 15:48 human_handwrite_print_test.json
-rw-r--r-- 1 root root 396240 Apr 7 15:48 human_handwrite_print_train.json
-rw-r--r-- 1 root root 23296 Apr 7 15:48 human_handwrite_print_validation.json
-rw-r--r-- 1 root root 22173 Apr 7 15:48 human_handwrite_test.json
-rw-r--r-- 1 root root 381840 Apr 7 15:48 human_handwrite_train.json
-rw-r--r-- 1 root root 22480 Apr 7 15:48 human_handwrite_validation.json
drwxr-xr-x 5 root root 4096 Apr 7 15:48 small/
-rw-r--r-- 1 root root 12127 Apr 7 15:48 small_test.json
-rw-r--r-- 1 root root 20373 Apr 7 15:48 small_train.json
-rw-r--r-- 1 root root 12487 Apr 7 15:48 small_validation.json
drwxr-xr-x 5 root root 4096 Apr 7 15:47 synthetic_handwrite/
-rw-r--r-- 1 root root 4363434 Apr 7 15:47 synthetic_handwrite_test.json
-rw-r--r-- 1 root root 35033262 Apr 7 15:47 synthetic_handwrite_train.json
-rw-r--r-- 1 root root 4478828 Apr 7 15:47 synthetic_handwrite_validation.json
这个数据集标注一塌糊涂啊,准确率太低了,还是没有商用的好,除非谁出资用商用的模型把这个数据集标注一下。
后续就不写了,这数据集没法用。
本文作者:Dong
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!