https://leetcode.cn/problems/add-two-numbers
给你两个 非空 的链表,表示两个非负的整数。它们每位数字都是按照 逆序 的方式存储的,并且每个节点只能存储 一位 数字。
请你将两个数相加,并以相同形式返回一个表示和的链表。
你可以假设除了数字 0 之外,这两个数都不会以 0 开头。
输入:l1 = [2,4,3], l2 = [5,6,4]
输出:[7,0,8]
解释:342 + 465 = 807.
python展开代码# Definition for singly-linked list.
# class ListNode:
# def __init__(self, val=0, next=None):
# self.val = val
# self.next = next
class Solution:
def addTwoNumbers(
self, l1: Optional[ListNode], l2: Optional[ListNode]
) -> Optional[ListNode]:
dammy = ListNode() # 虚拟节点,最终返回这个节点的下一个节点
… head.next = ListNode(
v_dig
) # 第一轮 比如7+6=13,那么这里就是3。第二轮,2+5+1=8,链表会是 dammy>>3>>8,从个位开始的
head = head.next
if l1:
l1 = l1.next
if l2:
l2 = l2.next
return dammy.next
【训练】Qwen2.5VL 多机多卡 Grounding Box定位(1):http://101.126.150.28:7878/post/2067
【训练】Qwen2.5VL 多机多卡 Grounding Box定位(2):http://101.126.150.28:7878/post/2094
类似这样:
json展开代码 {
"messages": [
{
"content": "<image>点[56,259]所处位置(也即是图中绿色五角星中心所处位置)的信息是什么?需要优先匹配最近UI元素的box。",
"role": "user"
},
{
"content": "<ref>文本-地址</ref><box>[[33, 241, 66, 264]]</box>",
"role": "assistant"
}
],
"images": [
"/img_datasets/img_small_size_28_prompt/000001.jpg"
]
}
自注意力机制(Self-Attention) 是Transformer中最耗时的部分。
在没有额外显卡的情况下,当你遇到训练模型时出现"out of memory"错误,可以尝试以下几种解决方案:
在深度学习模型训练过程中,遇到loss变成NaN(Not a Number)是一个常见的问题。这种情况通常表明训练过程中出现了数值不稳定性,需要及时处理以避免模型训练失败。以下是这种现象的原因分析和解决方法。
一篇很好的解读: https://zhuanlan.zhihu.com/p/20844750193
GRPO (Group Relative Policy Optimization) 是一种用于大型语言模型(LLM)和视觉语言模型(VLM)训练的强化学习算法。它是一种相对优势计算方法,通过对同一输入生成多个输出回答,然后计算相对优势进行优化。
相比于传统的PPO等算法,GRPO的主要特点是:
PPO是一种传统的强化学习方法,在RLHF (Reinforcement Learning from Human Feedback)中应用广泛:
基本组成:
训练流程:
LLaMA-Factory 实现了三种主要的强化学习训练方法:PPO、DPO、KTO,每种方法都针对大型语言模型的微调采用不同的策略。
PPO 是一种基于策略梯度的强化学习算法,是最传统的 RLHF (Reinforcement Learning from Human Feedback) 方法。
直接偏好优化(Direct Preference Optimization, DPO)是一种用于语言模型对齐的算法,由Rafailov等人在2023年提出,作为强化学习人类反馈(RLHF)的替代方案。DPO的目标与RLHF相同:使语言模型的输出更好地符合人类偏好,但DPO通过简化流程,直接从人类偏好数据中优化模型,无需单独的奖励模型和复杂的强化学习过程。
为什么需要DPO?