2025-05-07

Python扩展包

在 VS Code 的扩展市场中，最核心的 Python 开发扩展是由 Microsoft 官方维护的 ms-python.python（名称直接叫 "Python"）。以下是关键扩展的区分和推荐：

1. 必装的核心扩展 ✅ Python • 发布者: ms-python（Microsoft 官方）

• 功能：

• Python 语言基础支持（语法高亮、代码补全、调试等）。

• 集成 Python 解释器管理（切换虚拟环境、conda 等）。

• 提供 Jupyter Notebook 支持。

• 标识：扩展列表中直接显示为 "Python"，且作者是 ms-python。

阅读全文

反转链表

2025-05-07

算法刷题

🚧 第一步：理解链表的结构

链表就像一列火车，每节车厢（节点）有两个部分：

值（val）：比如存储的数字。
下一节的连接（next）：指向下一节车厢的“钩子”（指针）。

在 Python 中，可以用类表示：

python
展开代码
class ListNode:
    def __init__(self, val=0, next=None):
        self.val = val       # 值
        self.next = next     # 指向下一个节点的指针

例如，链表 1 -> 2 -> 3 就是三个节点，每个的“钩子”连向下一个。

阅读全文

统计素数个数

2025-05-07

算法刷题

统计素数的常用方法详解

1. 什么是素数？

素数（质数） 是大于 1 的自然数，只能被 1 和它本身整除。

示例：

素数：2, 3, 5, 7, 11, ...
非素数：4, 6, 8, 9, ...

阅读全文

在 VS Code 中连接虚拟机中的 Linux 终端

2025-05-06

Linux运维

在 VS Code 中连接虚拟机中的 Linux 终端，可以通过以下几种方法实现：

阅读全文

LADRC 公式

2025-05-03

自动控制

ADRC算法数学公式详解

\begin{cases} \text{ESO:} & \begin{cases} e = z_1 - y \\ \dot{z}_1 = z_2 - \beta_1 e \\ \dot{z}_2 = z_3 - \beta_2 e + b_0 u \\ \dot{z}_3 = -\beta_3 e \end{cases} \\ \text{TD:} & \begin{cases} \dot{v}_1 = v_2 \\ \dot{v}_2 = -r_0(v_1 - v_0) - c_0 v_2 \end{cases} \\ \text{LSEF:} & \begin{cases} e_1 = z_1 - v_1 \\ e_2 = z_2 - v_2 \\ u_0 = -k_1 e_1 - k_2 e_2 \\ u = \frac{u_0 - z_3}{b_0} \end{cases} \end{cases}

线性ADRC通常更容易调整参数，但在大扰动下可能性能不如非线性ADRC。

阅读全文

【训练】VLM Qwen2.GRPO训练微调 EasyR1 多机多卡训练（2）

2025-05-02

深度学习ban

该文章已加密，点击 阅读全文 并输入密码后方可查看。

阅读全文

【训练】VLM GRPO训练微调using EasyR1 （1）

2025-05-02

深度学习

训练

项目地址：

https://github.com/hiyouga/EasyR1?tab=readme-ov-file#custom-dataset

拉取镜像：


展开代码
docker pull hiyouga/verl:ngc-th2.6.0-cu126-vllm0.8.4-flashinfer0.2.2-cxx11abi0

做一个镜像：


展开代码
FROM hiyouga/verl:ngc-th2.6.0-cu126-vllm0.8.4-flashinfer0.2.2-cxx11abi0
WORKDIR /workplace
RUN git clone https://github.com/hiyouga/EasyR1.git
WORKDIR /workplace/EasyR1
RUN pip install -e . -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
RUN pip install swanlab -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

阅读全文

VLM-R1 训练：max_anyres_num 参数与多图处理机制解析

2025-05-01

深度学习ban

该文章已加密，点击 阅读全文 并输入密码后方可查看。

阅读全文

GRPO配置参数文档

2025-05-01

深度学习

grpo_config.py

GRPO配置参数文档

模型和参考模型参数

model_init_kwargs: dict[str, Any] 或 None，默认值 None
- 用于transformers.AutoModelForCausalLM.from_pretrained的关键字参数，当GRPOTrainer的model参数提供为字符串时使用。

数据预处理参数

remove_unused_columns: bool，默认值 False
- 是否仅保留数据集中的"prompt"列。如果您使用的自定义奖励函数需要"prompts"和"completions"以外的任何列，应将此值保持为False。
max_prompt_length: int 或 None，默认值 512
- 提示的最大长度。如果提示长度超过此值，将从左侧截断。
num_generations: int 或 None，默认值 8
- 每个提示生成的样本数。全局批次大小(num_processes * per_device_batch_size)必须能被此值整除。
temperature: float，默认值 0.9
- 采样的温度。温度越高，生成的内容越随机。
max_completion_length: int 或 None，默认值 256
- 生成内容的最大长度。
ds3_gather_for_generation: bool，默认值 True
- 适用于DeepSpeed ZeRO-3。如果启用，将收集策略模型权重以提高生成速度。禁用此选项可以训练超出单个GPU VRAM容量的模型，但会降低生成速度。禁用此选项与vLLM生成不兼容。

阅读全文

vLLM 如何使用配置 tokenizer_config.json

2025-04-30

深度学习

揭秘 vLLM 中的 tokenizer_config.json：以 Qwen3 模型为例深度解析

在使用 vLLM 部署大型语言模型（LLM）时，我们经常会接触到模型目录下的各种配置文件。其中，tokenizer_config.json 是一个至关重要的文件，它像一座桥梁，连接着人类可读的文本与模型内部能理解的数字表示。本文将以部署 Qwen3-30B-A3B 模型为例，深入探讨 tokenizer_config.json 在 vLLM 中的作用以及其内部各项配置的含义。

阅读全文