2025-12-30
深度学习
00

用一个具体例子详细说明 GSPO 的两个变体的计算过程,特别是 token 级别的重要性比率是如何得

2025-12-30
深度学习
00

引言

在大语言模型的强化学习训练中,如何设计一个既稳定又高效的目标函数一直是核心挑战。N

2025-12-30
深度学习
00

深入理解奖励模型:从训练到RLHF应用

基于Nemotron-Cascade论文解析奖励模

2025-12-30
深度学习
00

奖励塑形(Reward Shaping)技术解释

**奖励塑形(Reward Shaping

2025-12-29
DL论文
00

https://arxiv.org/html/2512.22047v1

一、核心创新

MAI-UI 是一个多尺寸的GUI智能体家族(2B、8B、32B、235B-A22B),专注于解决GUI智能体在实际部署中的四大挑战:

  1. 智能体-用户交互能力不足 - 现有系统缺乏主动询问、澄清用户意图的能力
  2. 仅依赖UI操作的局限性 - 长操作序列容易出错,且无法完成某些任务
  3. 缺乏端云协同架构 - 纯云端方案有隐私风险,纯端侧方案能力受限
  4. 动态环境脆弱性 - 在静态数据上训练的模型难以应对真实场景的多变性
2025-12-28
Vanblog
00

在后台目录新建:

bash
展开代码
vanblog# mkdir data/static/markdown-themes/

然后去找一款主题,比如这里:https://theme.typora.io/

2025-12-27
DL论文
00

https://arxiv.org/pdf/2512.13607

https://huggingface.co/collections/nvidia/nemotron-cascade

本文提出了“级联分域强化学习”方法,通过分阶段、分领域的强化学习训练流程,解决了异构推理任务混合训练效率低下的难题,从而训出了在编程竞赛中达到国际银牌水平的14B通用推理模型。

2025-12-26
DL论文
00

推理模型与测试时计算 (Test-Time Compute) 核心论文:

"Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters" (2024年8月)

最重要的突破之一,OpenAI o1/o3系列的理论基础

核心观点:在推理时投入更多计算资源(test-time compute)可能比单纯增大模型参数更有效

引入了"System 2思考"概念,让模型在输出前进行深度推理

延伸阅读:

"Competitive Programming with Large Reasoning Models" (OpenAI, 2025年2月)

o3模型在IOI 2024竞赛中的表现,展示了推理模型的实际能力

o3无需人工设计的推理策略就能达到金牌水平

2025-12-25
深度学习
00

现代模型通常组合使用:

展开代码
阶段1: Warm-up SFT ├─ 用高质量CoT数据做监督学习 ├─ 让模型学会基本的推理格式 └─ 建立初步的"逻辑先验" 阶段2: 强化学习 ├─ 基于SFT模型继续探索 ├─ 发现新的推理路径 ├─ 优化推理效率和准确性 └─ 可能超越初始训练数据 阶段3: (可选) Rejection Sampling ├─ 用RL模型生成大量推理 ├─ 筛选出答案正确的 └─ 再做一轮SFT巩固
2025-12-24
Linux运维
00

在 Ubuntu 22.04 中定时重启可以通过以下方法实现:

方法一:使用 systemd 定时器(推荐)

  1. 创建 systemd 服务文件

    bash
    展开代码
    sudo nano /etc/systemd/system/reboot.service
  2. 在文件中添加以下内容

    ini
    展开代码
    [Unit] Description=System Reboot [Service] Type=oneshot ExecStart=/sbin/reboot [Install] WantedBy=multi-user.target