编辑
2025-03-03
深度学习
00

VLM-R1 是deepseek R1 的GRPO训练方式在VLM中的实现。项目地址:https://github.com/om-ai-lab/VLM-R1

基础环境

构建docker环境:

bash
展开代码
# docker pull pytorch/pytorch:2.6.0-cuda12.4-cudnn9-devel docker pull pytorch/pytorch:2.5.1-cuda12.4-cudnn9-devel # docker run -it --gpus all pytorch/pytorch:2.6.0-cuda12.4-cudnn9-devel bash docker run -it --gpus all pytorch/pytorch:2.5.1-cuda12.4-cudnn9-devel bash apt update apt install vim git -y git clone https://github.com/om-ai-lab/VLM-R1.git cd VLM-R1/ bash setup.sh pip install transformers==4.49.0

此docker环境已经被我上传为 kevinchina/deeplearning:2.5.1-cuda12.4-cudnn9-devel-vlmr1

使用此镜像:

展开代码
docker run -it --gpus '"device=0,1,2,3,4,5,6,7"' --shm-size=64g -v /data/xiedong:/data/xiedong --net host kevinchina/deeplearning:2.5.1-cuda12.4-cudnn9-devel-vlmr1 bash
编辑
2025-03-01
单片机
00

大夏龙雀科技4G Cat1 CT511-AT0 MQTT联网实战教程

本文将详细介绍如何搭建自己的MQTT Broker,并使用大夏龙雀科技4G Cat1 CT511-AT0模块进行MQTT联网实战。通过本教程,您将学会如何配置模块、连接MQTT服务器、订阅和发布消息等操作。

编辑
2025-02-27
单片机
00

使用Docker快速搭建Mosquitto MQTT代理服务器(支持SSL加密)

MQTT协议示意图

本教程将指导您通过Docker容器快速部署支持WebSocket和SSL加密的Mosquitto MQTT代理服务器,适用于物联网项目、智能家居等场景。

编辑
2025-02-27
建站教程
00

最近 VanBlog 后台缓慢进不去,我都差点转别的博客框架了,没想到万能群友有方案,真是万分感谢!

编辑
2025-02-26
单片机
00

部分云服务提供商的 MQTT Broker 提供免费额度或免费试用,适合小型项目或个人开发者使用。以下是几个提供免费 MQTT Broker 的云服务:

编辑
2025-02-24
深度学习
00
编辑
2025-02-21
工具使用
00

免费Copilot替代方案:CodeGPT——如何调用自定义大模型API进行代码补全

痛点与解决方案
作为开发者,你是否因Copilot的高昂费用而犹豫?别担心,今天为大家推荐一款完全免费的替代方案——CodeGPT!它不仅支持代码智能补全,更可自定义接入私有化大模型API,实现个性化开发体验。本文手把手教你如何配置CodeGPT插件,打造专属AI编程助手。

编辑
2025-02-19
深度学习
00

deepseekv3对Qwen-2.5-14B进行蒸馏,模型如下:

https://huggingface.co/arcee-ai/Virtuoso-Small-v2

sglang运行指令:

bash
展开代码
docker run --gpus '"device=5"' \ --shm-size 32g \ -d -p 7890:7890 \ -v ~/.cache/huggingface:/root/.cache/huggingface \ --env "HF_TOKEN=<secret>" \ --ipc=host \ -v /data/xiedong/Virtuoso-Small-v2:/data/xiedong/Qwen2.5-32B-Instruct-GPTQ-Int4 \ lmsysorg/sglang:latest \ python3 -m sglang.launch_server --model-path /data/xiedong/Qwen2.5-32B-Instruct-GPTQ-Int4 --host 0.0.0.0 --port 7890 --tp 1 --api-key "ns34xx.."

sglang运行速度:42.27 T/s

编辑
2025-02-19
DL论文
00

传统专家混合模型(Mixture-of-Experts, MoE)在 Transformer 中的实现

在标准 Transformer 模型中,每一层包含一个自注意力模块(Self-Attention)和一个前馈神经网络(FFN)。MoE 的核心思想是用多个专家(Expert)替代 FFN,每个专家本身也是一个 FFN,但通过动态路由机制(门控网络)选择对每个输入 token 最相关的少数专家进行计算。这种设计可以在不显著增加计算量的情况下,大幅提升模型容量。

编辑
2025-02-19
DL论文
00

一、DeepSeek LLM

DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

https://arxiv.org/abs/2401.02954

2024 年 1 月发布。使用 GQA 优化推理成本;采用多步学习速率调度器替代余弦调度器;运用 HAI-LLM 训练框架优化训练基础设施;提出新的缩放分配策略。使用 2 万亿字符双语数据集预训练,67B 模型性能超越 LLaMA-2 70B,Chat 版本优于 GPT-3.5。

编辑
2025-02-17
DL论文
00
编辑
2025-02-17
DL论文
00

https://arxiv.org/abs/2410.13863

摘要

论文研究了文本生成图像背景下的缩放问题,主要关注两个关键因素:模型使用离散还是连续的标记,以及标记是以随机顺序还是固定光栅顺序生成,使用的是类似于BERT还是GPT的转换器架构。

基于连续标记的模型相比于使用离散标记的模型,在视觉质量上显著更佳。

此外,生成顺序和注意力机制显著影响GenEval分数:随机顺序模型相比于光栅顺序模型获得了显著更好的GenEval分数。

受这些发现的启发,我们训练了Fluid,一个基于连续标记的随机顺序自回归模型。

Fluid 10.5B模型在MS-COCO 30K数据集上实现了新的零样本FID的最先进成绩6.16,并在GenEval基准测试中获得了0.69的总分。

我们希望我们的发现和结果能够鼓励未来的研究工作进一步弥合视觉和语言模型之间的扩展差距。

编辑
2025-02-17
Linux运维
00

Git代理设置与取消指南

作为开发者,我们常遇到企业内网或特殊网络环境下无法直接访问Git仓库的情况。本教程将详细介绍如何为Git设置代理(Proxy)以及如何取消代理配置,并提供常见问题排查方法。

编辑
2025-02-17
深度学习
00

项目介绍

https://github.com/kvcache-ai/ktransformers

GitHub - kvcache-ai/ktransformers: A Flexible Framework for Experiencing Cutting-edge LLM Inference

2025 年 2 月 10 日:支持 Deepseek-R1 和 V3 在单(24GB 显存)/多 GPU 和 382G DRAM 上运行,速度提升可达 3~28 倍。详细演示和复现教程请参见此处。

KTransformers 是一个灵活且以 Python 为中心的框架,旨在通过高级内核优化和并行策略提升大型语言模型(LLM)的推理性能。该框架允许用户通过简单的代码注入,快速实现与 Transformers 兼容的接口、支持 OpenAI 和 Ollama 的 RESTful API,以及类似 ChatGPT 的简化网页界面。KTransformers 特别关注资源受限的本地部署场景,支持 GPU/CPU 异构计算和量化模型的优化,例如高效的 Llamafile 和 Marlin 内核。其核心设计理念是通过模板化的注入机制,简化模块替换和优化组合,帮助研究人员探索创新的 LLM 推理优化方案。KTransformers 还提供了详细的教程和示例,支持多 GPU 部署和多种先进模型(如 DeepSeek 和 Mixtral),并计划在未来版本中开源更多优化功能。该框架由清华大学 MADSys 小组和 Approaching.AI 团队积极维护,致力于成为实验前沿 LLM 推理优化的灵活平台。

提要

经调研和社区讨论,该实验方案需硬件支持以下配置:1块RTX 4090显卡+双路Xeon 6430+16通道DDR5内存(总容量512GB),通过AMX指令集实现CPU矩阵加速。方案采用"访存换计算"策略,将非密集计算层部署在CPU内存,利用16根内存条达成600GB/s带宽。但实际受限于PCIe总线性能,仅能输出10+ token/s,且整套系统功耗超1000W(CPU 500W+GPU 200W),运行温度达70-80℃。此配置属原型验证级别,存在性能瓶颈和能耗过高问题,不具备量产可行性。

编辑
2025-02-16
单片机
00
编辑
2025-02-14
工具使用
00
编辑
2025-02-14
深度学习
00

我的另一盘类似的教程:https://www.dong-blog.fun/post/1942

编辑
2025-02-14
Python
00

以下是一个简单的FastAPI应用程序示例,包含你提到的测试端口代码:

首先,确保你已经安装了 FastAPI 和 Uvicorn。如果还没有安装,可以使用 pip 进行安装:

bash
展开代码
pip install fastapi uvicorn requests
编辑
2025-02-14
Linux运维
00

我们可以按照你的要求配置 Nginx 将客户端的请求头信息及其他设置信息保持和转发。以下是详细的步骤:

  1. 创建 Nginx 配置文件:

    首先需要创建一个 Nginx 配置文件,比如 nginx.conf

    nginx
    展开代码
    events {} http { upstream backend { server 101.136.8.66:7890; } server { listen 7860; location / { proxy_pass http://backend; # 保持客户端的请求头信息 proxy_set_header Host $host; proxy_set_header X-Real-IP $remote_addr; proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for; proxy_set_header X-Forwarded-Proto $scheme; # HTTP 版本和连接管理 proxy_http_version 1.1; proxy_set_header Upgrade $http_upgrade; proxy_set_header Connection "upgrade"; # 超时设置 proxy_connect_timeout 300s; proxy_read_timeout 300s; } } }
编辑
2025-02-14
深度学习
00

模型:https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

下载模型,这样下载太慢,换个源头:

bash
展开代码
# Make sure you have git-lfs installed (https://git-lfs.com) git lfs install git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B # If you want to clone without large files - just their pointers GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B