https://arxiv.org/html/2512.22047v1
MAI-UI 是一个多尺寸的GUI智能体家族(2B、8B、32B、235B-A22B),专注于解决GUI智能体在实际部署中的四大挑战:
https://arxiv.org/pdf/2512.13607
https://huggingface.co/collections/nvidia/nemotron-cascade
本文提出了“级联分域强化学习”方法,通过分阶段、分领域的强化学习训练流程,解决了异构推理任务混合训练效率低下的难题,从而训出了在编程竞赛中达到国际银牌水平的14B通用推理模型。
推理模型与测试时计算 (Test-Time Compute) 核心论文:
"Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters" (2024年8月)
最重要的突破之一,OpenAI o1/o3系列的理论基础
核心观点:在推理时投入更多计算资源(test-time compute)可能比单纯增大模型参数更有效
引入了"System 2思考"概念,让模型在输出前进行深度推理
延伸阅读:
"Competitive Programming with Large Reasoning Models" (OpenAI, 2025年2月)
o3模型在IOI 2024竞赛中的表现,展示了推理模型的实际能力
o3无需人工设计的推理策略就能达到金牌水平
现代模型通常组合使用:
展开代码阶段1: Warm-up SFT ├─ 用高质量CoT数据做监督学习 ├─ 让模型学会基本的推理格式 └─ 建立初步的"逻辑先验" 阶段2: 强化学习 ├─ 基于SFT模型继续探索 ├─ 发现新的推理路径 ├─ 优化推理效率和准确性 └─ 可能超越初始训练数据 阶段3: (可选) Rejection Sampling ├─ 用RL模型生成大量推理 ├─ 筛选出答案正确的 └─ 再做一轮SFT巩固
在 Ubuntu 22.04 中定时重启可以通过以下方法实现:
创建 systemd 服务文件
bash展开代码sudo nano /etc/systemd/system/reboot.service
在文件中添加以下内容
ini展开代码[Unit]
Description=System Reboot
[Service]
Type=oneshot
ExecStart=/sbin/reboot
[Install]
WantedBy=multi-user.target