【知识点】transformer的qkv计算如何建立上下文感知？

2025-05-15

深度学习ban

该文章已加密，点击 阅读全文 并输入密码后方可查看。

阅读全文

【算法刷题】2. 两数相加，链表加和

2025-05-14

算法刷题

两数相加

https://leetcode.cn/problems/add-two-numbers

给你两个非空的链表，表示两个非负的整数。它们每位数字都是按照逆序的方式存储的，并且每个节点只能存储一位数字。

请你将两个数相加，并以相同形式返回一个表示和的链表。

你可以假设除了数字 0 之外，这两个数都不会以 0 开头。

输入：l1 = [2,4,3], l2 = [5,6,4]

输出：[7,0,8]

解释：342 + 465 = 807.

python
展开代码
# Definition for singly-linked list.
# class ListNode:
#     def __init__(self, val=0, next=None):
#         self.val = val
#         self.next = next
class Solution:
    def addTwoNumbers(
        self, l1: Optional[ListNode], l2: Optional[ListNode]
    ) -> Optional[ListNode]:
        dammy = ListNode()  # 虚拟节点，最终返回这个节点的下一个节点
…            head.next = ListNode(
                v_dig
            )  # 第一轮 比如7+6=13，那么这里就是3。第二轮，2+5+1=8，链表会是 dammy>>3>>8，从个位开始的
            head = head.next
            if l1:
                l1 = l1.next
            if l2:
                l2 = l2.next
        return dammy.next

阅读全文

【训练】Qwen2.5VL 多机多卡 Grounding Box定位（2）

2025-05-13

深度学习

【训练】Qwen2.5VL 多机多卡 Grounding Box定位（1）：http://101.126.150.28:7878/post/2067

【训练】Qwen2.5VL 多机多卡 Grounding Box定位（2）：http://101.126.150.28:7878/post/2094

1. 本次更改了数据集

类似这样：

json
展开代码
  {
    "messages": [
      {
        "content": "<image>点[56,259]所处位置（也即是图中绿色五角星中心所处位置）的信息是什么？需要优先匹配最近UI元素的box。",
        "role": "user"
      },
      {
        "content": "<ref>文本-地址</ref><box>[[33, 241, 66, 264]]</box>",
        "role": "assistant"
      }
    ],
    "images": [
      "/img_datasets/img_small_size_28_prompt/000001.jpg"
    ]
  }

阅读全文

【知识点】Transformer中计算最复杂的模块是什么

2025-05-13

深度学习

Transformer中计算最复杂的模块

自注意力机制（Self-Attention） 是Transformer中最耗时的部分。

时间复杂度与哪些因素有关？

序列长度 n
隐藏层维度 d

阅读全文

【知识点】训练模型时遇到out of memory怎么解决

2025-05-13

深度学习

解决训练模型时的内存不足问题

在没有额外显卡的情况下，当你遇到训练模型时出现"out of memory"错误，可以尝试以下几种解决方案：

阅读全文

【知识点】训练过程出现NaN如何解决

2025-05-13

深度学习

训练模型时遇到loss为NaN的现象及解决方法

在深度学习模型训练过程中，遇到loss变成NaN（Not a Number）是一个常见的问题。这种情况通常表明训练过程中出现了数值不稳定性，需要及时处理以避免模型训练失败。以下是这种现象的原因分析和解决方法。

阅读全文

【知识点】GRPO 训练原理

2025-05-13

深度学习

一篇很好的解读： https://zhuanlan.zhihu.com/p/20844750193

GRPO：基于群组相对优化的强化学习算法

1. GRPO概述

GRPO (Group Relative Policy Optimization) 是一种用于大型语言模型(LLM)和视觉语言模型(VLM)训练的强化学习算法。它是一种相对优势计算方法，通过对同一输入生成多个输出回答，然后计算相对优势进行优化。

相比于传统的PPO等算法，GRPO的主要特点是：

不需要价值网络(Value Network)，简化了训练过程
通过相对评估减少了回报的高方差问题
特别适合处理离散奖励信号，如问答场景中的正确/错误奖励
对同样的问题采样多次，通过组内相对比较学习更好的策略

阅读全文

【知识点】DPO、PPO reference 模型和 actor 模型是否可以为同一个模型

2025-05-12

深度学习

PPO和DPO强化学习方法比较

PPO (Proximal Policy Optimization)

PPO是一种传统的强化学习方法，在RLHF (Reinforcement Learning from Human Feedback)中应用广泛：

基本组成：
- 策略模型(Actor)：生成文本响应
- 奖励模型(Reward Model)：评估响应质量
- 参考模型(Reference Model)：限制与初始模型的偏离
训练流程：
- 策略模型生成回答
- 奖励模型对生成的回答打分
- 通过奖励信号更新策略模型
- 使用KL惩罚项防止过度偏离参考模型

阅读全文

【知识点】PPO、DPO、KTO

2025-05-12

深度学习

强化学习训练方法概览

LLaMA-Factory 实现了三种主要的强化学习训练方法：PPO、DPO、KTO，每种方法都针对大型语言模型的微调采用不同的策略。

1. PPO (Proximal Policy Optimization)

PPO 是一种基于策略梯度的强化学习算法，是最传统的 RLHF (Reinforcement Learning from Human Feedback) 方法。

原理

使用策略模型生成回答
使用奖励模型评估回答质量
通过奖励信号更新策略模型，同时限制更新幅度以确保稳定性

阅读全文

【知识点】DPO强化学习

2025-05-12

深度学习

直接偏好优化算法(DPO)详解

DPO算法简介

直接偏好优化(Direct Preference Optimization, DPO)是一种用于语言模型对齐的算法，由Rafailov等人在2023年提出，作为强化学习人类反馈(RLHF)的替代方案。DPO的目标与RLHF相同：使语言模型的输出更好地符合人类偏好，但DPO通过简化流程，直接从人类偏好数据中优化模型，无需单独的奖励模型和复杂的强化学习过程。

为什么需要DPO？

传统RLHF的痛点：RLHF依赖于奖励模型和强化学习（如PPO），这不仅增加了训练复杂性，还容易引入不稳定性。例如，强化学习中的策略更新可能会导致模型性能波动。
DPO的优势：DPO直接利用偏好数据进行优化，避免了中间步骤，使得训练过程更加高效且稳定。

阅读全文