2025-04-18
深度学习
00

InternVL 1技术深度分析

1. 引言

InternVL(Internal Vision-Language model)是一个开源的多模态大型模型项目,由上海人工智能实验室(OpenGVLab)开发。InternVL 1是该项目的第一个主要版本,它通过创新的视觉-语言融合方法,实现了强大的图像理解和多模态对话能力。本文将深入分析InternVL 1的技术架构、关键特性和创新点,以提供对该模型的全面了解。

2025-04-18
深度学习
00

该文章已加密,点击 阅读全文 并输入密码后方可查看。

2025-04-18
深度学习
00

Spatial Layout Projector (SLP)

  1. InternVL采用了一种称为"Spatial Layout Projector (SLP)"的方法,将四维的空间坐标[x1,y1,x2,y2](一个bounding box)转换为单个token嵌入:

    "A key innovation in LayTextLLM is the Spatial Layout Projector (SLP), which transforms a spatial layout into a singular bounding box token. This enhancement enables the model to process both spatial layouts and textual inputs simultaneously. To be specifically, each OCR-derived spatial layout is represented by a bounding box defined by four-dimensional coordinates [x1,y1,x2,y2]..."

  2. 这种方法确实将每个边界框(box)表示为一个token,不同于之前的"coordinate-as-tokens"方案(这种方案会将坐标转换为多个token):

    "Compared to the coordinate-as-tokens scheme, the SLP represents each bounding box with a single token. This approach significantly reduces the number of input tokens..."

  3. 这种单token表示法的计算方式是通过将坐标映射到高维空间来实现的:

    "The process can be computed as z=W⋅c+b, where c∈ℝ^4 is the vector of the bounding box coordinates. W∈ℝ^(d×4) is a weight matrix with d represents the dimension of the embedding, b∈ℝ^(d×1) is a bias vector, z is the resulting bounding box token represented as an d-dimensional embedding."

2025-04-17
单片机
00

这里有一个很好的例子:https://thingsboard.io/use-cases/fleet-tracking/

thingsboard架构

image.png

这篇文章想完成这些事情:

  1. 在 thingsboard 新建GPS设备。
  2. 在客户端,使用Python模拟为GPS设备,往thingsboard 发送GPS数据(经纬度)。
  3. 在 thingsboard 仪表盘展示设备的GPS位置轨迹。
  4. 在 thingsboard 定义虚拟边界使用地理围栏,设置区域。当设备进入或离开地理围栏时触发操作,例如发送短信警告、发出警报或启动工作流。
  5. 学习如何取得 thingsboard 的设备数据。
  6. 学习配置 thingsboard 数据转发,将数据存入自己的数据库。
2025-04-16
深度学习
00
2025-04-15
Linux运维
00

在VMware Ubuntu中访问Windows共享文件夹:完整指南

在使用VMware运行Ubuntu虚拟机时,访问Windows主机上的文件是常见需求。本文将详细介绍如何通过网络共享方式,让Ubuntu虚拟机直接访问Windows主机的文件夹。

2025-04-15
Linux运维
00

解决 PowerShell 中 Conda 命令无法识别的问题

问题描述

在 Windows PowerShell 中运行 conda 时,可能会遇到以下错误:

powershell
展开代码
conda : 无法将“conda”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写,如果包括路径,请确保路径正确,然后再试一次。

即使 conda.exe 路径已添加到环境变量,仍然无法直接使用 conda 命令。本指南将提供完整的解决方案。


2025-04-14
Linux运维
00

docker-compose.yaml

bash
展开代码
version: '3' services: nextcloud: image: nextcloud container_name: nextcloud ports: - "8082:80" volumes: - ./nextcloud_data:/var/www/html # 网页文件和数据 - ./app_data:/var/www/html/data # 可选:Nextcloud用户数据单独存储 environment: - MYSQL_HOST=db # 数据库服务名 - MYSQL_DATABASE=nextcloud # 数据库名 - MYSQL_USER=填写自己的用户名 # 数据库用户 - MYSQL_PASSWORD=填写自己的用户密码 # 数据库密码 depends_on: - db restart: unless-stopped db: image: mariadb:10.6 # 或 mysql:8.0 container_name: nextcloud_db environment: - MYSQL_ROOT_PASSWORD=root_password # root密码(保密) - MYSQL_DATABASE=nextcloud - MYSQL_USER=填写自己的用户名 - MYSQL_PASSWORD=填写自己的用户密码 volumes: - ./db_data:/var/lib/mysql # 数据库文件保存在当前目录的db_data文件夹 restart: unless-stopped
2025-04-12
自动控制
00

Self-balance Control of Bicycle with Inertial Wheel Pendulum based on Linear ADRC

https://ieeexplore.ieee.org/document/10055063

1. 论文细节

1.1 摘要

摘要:本文研究了带惯性轮摆(IWP)的无人自行车在外部干扰和模型不完整情况下的自平衡控制问题。通过拉格朗日方法将无人自行车系统简化为倒立摆模型进行建模。为实现无人自行车在垂直方向上的稳定性并完成自平衡控制,提出了一种基于线性自抗扰控制(LADRC)的方法,并与PID控制器进行对比。为验证所提方法的性能,在具备真实物理特性仿真能力的ROS-Gazebo平台上进行实验,同时与比例-积分-微分(PID)控制器开展对比仿真。结果表明:基于LADRC控制器的无人自行车系统具有更优的自平衡性能,且对外部干扰和建模误差具有强鲁棒性。

2025-04-11
深度学习
00

CycleGAN的网络结构

1. 整体架构

CycleGAN包含4个网络:

  • 两个生成器(Generators): G_A (A→B) 和 G_B (B→A)
  • 两个判别器(Discriminators): D_A 和 D_B

其中:

  • G_A: 将域A的图像转换到域B
  • G_B: 将域B的图像转换到域A
  • D_A: 判断图像是真实的B域图像还是G_A生成的假B域图像
  • D_B: 判断图像是真实的A域图像还是G_B生成的假A域图像
2025-04-11
深度学习
00

文本提示如何作用于Stable Diffusion的图像生成过程

Stable Diffusion的文本转图像过程是一个复杂的流程,文本提示(prompt)会被转换成嵌入向量,然后通过条件扩散模型引导图像生成。以下是完整的流程:

2025-04-11
深度学习
00

CFG Scale(Classifier-Free Guidance Scale)是如何控制文生图的

CFG Scale(Classifier-Free Guidance Scale,无分类器指导缩放)是Stable Diffusion中的一个关键参数,它控制生成图像在遵循文本提示的严格程度。

2025-04-11
深度学习
00

Stable Diffusion WebUI 噪声采样的调度器的原理

噪声调度器(Noise Schedulers)是扩散模型生成过程中的关键组件,它们决定了扩散过程中噪声水平如何随时间变化。合适的噪声调度可以显著提高生成质量和效率。我将详细解析 SD WebUI 中的各种调度器,包括其数学原理和具体实现。

2025-04-11
深度学习
00

Stable Diffusion 采样器的数学原理

Stable Diffusion 采样器是扩散模型去噪过程的核心组件,不同采样器采用不同的数学方法来逐步将纯噪声转换为有意义的图像。下面我将详细介绍几种主要采样器的工作原理、数学公式和代码实现。

2025-04-11
深度学习
00

Read file: modules/processing.py

Read file: modules/sd_samplers.py

Read file: modules/sd_samplers_kdiffusion.py

StableDiffusionProcessingTxt2Img: 文本到图像生成过程详解

StableDiffusionProcessingTxt2Img 是 stable-diffusion-webui 中实现文本到图像生成的核心类。整个生成过程是一个复杂的管道,下面我将分步骤详细解析这个过程。

2025-04-10
深度学习
00

使用ControlNet的Recolor模型为黑白图片上色

本文的代码: https://github.com/xxddccaa/stable-diffusion-webui-contorlnet-recolor

1. Recolor Control-LoRA简介

用途:专为黑白照片上色设计的轻量化模型
核心特点: • 老照片修复/历史影像彩色化的理想选择 • 基于ControlNet架构,采用LoRA(低秩适应)技术实现模型瘦身: • 原版ControlNet:4.7GB → Control-LoRA:仅738MB/377MB • 训练时覆盖多样化图像概念和比例,具备优秀泛化能力

技术文档:HuggingFace项目页

2025-04-10
深度学习
00

即使现在有这么高级的质量评估方法:

https://mp.weixin.qq.com/s/77F6JlbLN6cFaU7vR4N0CA

本文写一些以前用的质量评估方法。

2025-04-10
Linux运维
00
展开代码
apt update apt-get install libglib2.0-0 -y
2025-04-07
深度学习
00

要做什么

全量微调Qwen2.5-VL-7B-Instruct的参数,用于图片转公式LaTex。

模型地址:https://huggingface.co/Qwen/Qwen2.5-VL-7B-Instruct

数据集

数据集:https://modelscope.cn/datasets/AI-ModelScope/LaTeX_OCR/summary

数据集下载,约有1.1G大小数据:

bash
展开代码
modelscope download --dataset AI-ModelScope/LaTeX_OCR --local_dir AI-ModelScope/LaTeX_OCR
2025-04-07
Python
00

该Python脚本用于处理/ssd/xiedong/vlm-r1-train-tasks-json-ui-docto/tasks_json目录下的数据,将其中所有图片等比例缩小(最长边为1024像素),并连同JSON文件一起复制到新目录/ssd/xiedong/vlm-r1-train-tasks-json-ui-docto/tasks_json_small_size中。

功能说明

  • 遍历源目录下所有子文件夹(如"200932"等)
  • 处理每个子文件夹中的所有.jpg图片文件,等比例缩放至最长边为1024像素
  • 同时复制所有step_*.json文件到对应目录
  • 使用Python多进程技术并行处理,大幅提高处理速度