编辑
2025-04-11
深度学习
00

Read file: modules/processing.py

Read file: modules/sd_samplers.py

Read file: modules/sd_samplers_kdiffusion.py

StableDiffusionProcessingTxt2Img: 文本到图像生成过程详解

StableDiffusionProcessingTxt2Img 是 stable-diffusion-webui 中实现文本到图像生成的核心类。整个生成过程是一个复杂的管道,下面我将分步骤详细解析这个过程。

编辑
2025-04-10
深度学习
00

使用ControlNet的Recolor模型为黑白图片上色

本文的代码: https://github.com/xxddccaa/stable-diffusion-webui-contorlnet-recolor

1. Recolor Control-LoRA简介

用途:专为黑白照片上色设计的轻量化模型
核心特点: • 老照片修复/历史影像彩色化的理想选择 • 基于ControlNet架构,采用LoRA(低秩适应)技术实现模型瘦身: • 原版ControlNet:4.7GB → Control-LoRA:仅738MB/377MB • 训练时覆盖多样化图像概念和比例,具备优秀泛化能力

技术文档:HuggingFace项目页

编辑
2025-04-10
深度学习
00

即使现在有这么高级的质量评估方法:

https://mp.weixin.qq.com/s/77F6JlbLN6cFaU7vR4N0CA

本文写一些以前用的质量评估方法。

编辑
2025-04-10
Linux运维
00
apt update apt-get install libglib2.0-0 -y
编辑
2025-04-07
深度学习
00

要做什么

全量微调Qwen2.5-VL-7B-Instruct的参数,用于图片转公式LaTex。

模型地址:https://huggingface.co/Qwen/Qwen2.5-VL-7B-Instruct

数据集

数据集:https://modelscope.cn/datasets/AI-ModelScope/LaTeX_OCR/summary

数据集下载,约有1.1G大小数据:

bash
modelscope download --dataset AI-ModelScope/LaTeX_OCR --local_dir AI-ModelScope/LaTeX_OCR