编辑
2025-04-07
深度学习
00

目录

要做什么
数据集

要做什么

全量微调Qwen2.5-VL-7B-Instruct的参数,用于图片转公式LaTex。

模型地址:https://huggingface.co/Qwen/Qwen2.5-VL-7B-Instruct

数据集

数据集:https://modelscope.cn/datasets/AI-ModelScope/LaTeX_OCR/summary

数据集下载,约有1.1G大小数据:

bash
modelscope download --dataset AI-ModelScope/LaTeX_OCR --local_dir AI-ModelScope/LaTeX_OCR

下载这个代码对数据集进行处理:

https://www.dong-blog.fun/code/process_latex_ocr.py

处理后的数据集长这样:

bash
AI-ModelScope-convert# ll total 80868 drwxr-xr-x 7 root root 4096 Apr 7 15:48 ./ drwxr-xr-x 4 root root 4096 Apr 7 15:45 ../ drwxr-xr-x 5 root root 4096 Apr 7 15:48 full/ -rw-r--r-- 1 root root 3769362 Apr 7 15:48 full_test.json -rw-r--r-- 1 root root 30711801 Apr 7 15:48 full_train.json -rw-r--r-- 1 root root 3480462 Apr 7 15:48 full_validation.json drwxr-xr-x 5 root root 4096 Apr 7 15:48 human_handwrite/ drwxr-xr-x 5 root root 4096 Apr 7 15:48 human_handwrite_print/ -rw-r--r-- 1 root root 23013 Apr 7 15:48 human_handwrite_print_test.json -rw-r--r-- 1 root root 396240 Apr 7 15:48 human_handwrite_print_train.json -rw-r--r-- 1 root root 23296 Apr 7 15:48 human_handwrite_print_validation.json -rw-r--r-- 1 root root 22173 Apr 7 15:48 human_handwrite_test.json -rw-r--r-- 1 root root 381840 Apr 7 15:48 human_handwrite_train.json -rw-r--r-- 1 root root 22480 Apr 7 15:48 human_handwrite_validation.json drwxr-xr-x 5 root root 4096 Apr 7 15:48 small/ -rw-r--r-- 1 root root 12127 Apr 7 15:48 small_test.json -rw-r--r-- 1 root root 20373 Apr 7 15:48 small_train.json -rw-r--r-- 1 root root 12487 Apr 7 15:48 small_validation.json drwxr-xr-x 5 root root 4096 Apr 7 15:47 synthetic_handwrite/ -rw-r--r-- 1 root root 4363434 Apr 7 15:47 synthetic_handwrite_test.json -rw-r--r-- 1 root root 35033262 Apr 7 15:47 synthetic_handwrite_train.json -rw-r--r-- 1 root root 4478828 Apr 7 15:47 synthetic_handwrite_validation.json

这个数据集标注一塌糊涂啊,准确率太低了,还是没有商用的好,除非谁出资用商用的模型把这个数据集标注一下。

后续就不写了,这数据集没法用。

如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!