2025-04-11
深度学习
00

CycleGAN的网络结构

1. 整体架构

CycleGAN包含4个网络:

  • 两个生成器(Generators): G_A (A→B) 和 G_B (B→A)
  • 两个判别器(Discriminators): D_A 和 D_B

其中:

  • G_A: 将域A的图像转换到域B
  • G_B: 将域B的图像转换到域A
  • D_A: 判断图像是真实的B域图像还是G_A生成的假B域图像
  • D_B: 判断图像是真实的A域图像还是G_B生成的假A域图像
2025-04-11
深度学习
00

文本提示如何作用于Stable Diffusion的图像生成过程

Stable Diffusion的文本转图像过程是一个复杂的流程,文本提示(prompt)会被转换成嵌入向量,然后通过条件扩散模型引导图像生成。以下是完整的流程:

2025-04-11
深度学习
00

CFG Scale(Classifier-Free Guidance Scale)是如何控制文生图的

CFG Scale(Classifier-Free Guidance Scale,无分类器指导缩放)是Stable Diffusion中的一个关键参数,它控制生成图像在遵循文本提示的严格程度。

2025-04-11
深度学习
00

Stable Diffusion WebUI 噪声采样的调度器的原理

噪声调度器(Noise Schedulers)是扩散模型生成过程中的关键组件,它们决定了扩散过程中噪声水平如何随时间变化。合适的噪声调度可以显著提高生成质量和效率。我将详细解析 SD WebUI 中的各种调度器,包括其数学原理和具体实现。

2025-04-11
深度学习
00

Stable Diffusion 采样器的数学原理

Stable Diffusion 采样器是扩散模型去噪过程的核心组件,不同采样器采用不同的数学方法来逐步将纯噪声转换为有意义的图像。下面我将详细介绍几种主要采样器的工作原理、数学公式和代码实现。

2025-04-11
深度学习
00

Read file: modules/processing.py

Read file: modules/sd_samplers.py

Read file: modules/sd_samplers_kdiffusion.py

StableDiffusionProcessingTxt2Img: 文本到图像生成过程详解

StableDiffusionProcessingTxt2Img 是 stable-diffusion-webui 中实现文本到图像生成的核心类。整个生成过程是一个复杂的管道,下面我将分步骤详细解析这个过程。

2025-04-10
深度学习
00

使用ControlNet的Recolor模型为黑白图片上色

本文的代码: https://github.com/xxddccaa/stable-diffusion-webui-contorlnet-recolor

1. Recolor Control-LoRA简介

用途:专为黑白照片上色设计的轻量化模型
核心特点: • 老照片修复/历史影像彩色化的理想选择 • 基于ControlNet架构,采用LoRA(低秩适应)技术实现模型瘦身: • 原版ControlNet:4.7GB → Control-LoRA:仅738MB/377MB • 训练时覆盖多样化图像概念和比例,具备优秀泛化能力

技术文档:HuggingFace项目页

2025-04-10
深度学习
00

即使现在有这么高级的质量评估方法:

https://mp.weixin.qq.com/s/77F6JlbLN6cFaU7vR4N0CA

本文写一些以前用的质量评估方法。

2025-04-10
Linux运维
00
展开代码
apt update apt-get install libglib2.0-0 -y
2025-04-07
深度学习
00

要做什么

全量微调Qwen2.5-VL-7B-Instruct的参数,用于图片转公式LaTex。

模型地址:https://huggingface.co/Qwen/Qwen2.5-VL-7B-Instruct

数据集

数据集:https://modelscope.cn/datasets/AI-ModelScope/LaTeX_OCR/summary

数据集下载,约有1.1G大小数据:

bash
展开代码
modelscope download --dataset AI-ModelScope/LaTeX_OCR --local_dir AI-ModelScope/LaTeX_OCR