1. GAE (Generalized Advantage Estimation) 基础 为什么需要优势函数? 在强化学习中,我们想知道:在状态$st$采取动作$at$,比平均水平好多少? $$A(st, at) = Q(st, at) - V(st)$$ - $Q(st, at)$: 采取动作$at$后的期望回报 - $V(st)$: 状态$st$的平均期望回报 - $A > 0$: 这个动作比平均好,应该鼓励 - $A < 0$:....
Proximal Policy Optimization (PPO): $$ \mathcal{J}{\text{PPO}}(\theta) = \mathbb{E}{(q,a)\sim\mathcal{D}, o{\leq t}\sim\pi{\theta{\text{old}}}(\cdot|q)} \left[ \min \left( \frac{\pi\theta(ot \mid q, o{<t})}{\pi{\theta{\t...
GSPO 版本依赖:ms-swift >= 3.11 Megatron GSPO 当前已支持以下功能: - 训练模式:全参数训练与 LoRA 微调 - 并行策略:支持上下文并行(CP)、流水线并行(PP)、张量并行(TP)和专家并行(EP) - 推理加速:支持 vLLM 的 colocate 模式和 server 模式 - 模型支持:兼容 Megatron Swift 中的 LLM 及 MLLM(多模态大模型) - 算法支持:涵盖 sw...
https://github.com/vllm-project/vllm/blob/v0.11.0/pyproject.toml 在pyproject.toml中查看pytorch版本: 安装uv: 查看cuda版本: 安装vllm: torch如果掉了就再装:
https://docs.nvidia.com/deeplearning/frameworks/pytorch-release-notes/rel-25-11.html nvcr.io/nvidia/pytorch:25.08-py3
https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash 摘要 我们推出了 MiMo-V2-Flash 模型。这是一个混合专家(MoE)模型,总参数量 309B,实际运行参数量 15B,兼顾推理能力强、响应速度快,适合智能体任务。 模型采用了混合注意力结构,结合了滑动窗口注意力(SWA)和全局注意力,滑动窗口长度 128 token,混合比例为 5:1。我们通过多 token 预测(MTP)进行了....
https://arxiv.org/pdf/2509.02544 1. 他们到底想解决什么问题? 想象一下,你想让 AI 帮你: - 在京东上搜"三体",找到刘慈欣写的、50 块钱以内的书,加入购物车 - 玩一局 2048,尽量拿高分 - 在 Ubuntu 上用终端命令处理文件、跑代码 这些任务有个共同特点:需要多步操作、需要看屏幕、需要根据反馈调整策略。这就是 GUI Agent 要干的事儿。 但现有方案有几个大坑: 1. 数据太少:...