2026-01-08
LLaMA-Factory
00

laolao77/MMDU

https://huggingface.co/datasets/laolao77/MMDU/viewer/MMDU/train?row=0

bash
展开代码
./hfd.sh laolao77/MMDU --dataset --local-dir /data/xiedong/mmdu/
2026-01-08
LLaMA-Factory
00

LLamaFactory

本地示例数据集(可直接使用)

data 目录下有以下测试

2026-01-05
LLaMA-Factory
00

单机4卡训练 LLaMAFactory Megatron 速度如何?这篇做了测试。

MCA

2026-01-04
LLaMA-Factory
00

1. Dockerfile.megatron 是什么?

`Dockerfile.megat

2025-12-30
深度学习
00

用一个具体例子详细说明 GSPO 的两个变体的计算过程,特别是 token 级别的重要性比率是如何得

2025-12-30
深度学习
00

引言

在大语言模型的强化学习训练中,如何设计一个既稳定又高效的目标函数一直是核心挑战。N

2025-12-30
深度学习
00

深入理解奖励模型:从训练到RLHF应用

基于Nemotron-Cascade论文解析奖励模

2025-12-30
深度学习
00

奖励塑形(Reward Shaping)技术解释

**奖励塑形(Reward Shaping

2025-12-29
DL论文
00

https://arxiv.org/html/2512.22047v1

一、核心创新

MAI-UI 是一个多尺寸的GUI智能体家族(2B、8B、32B、235B-A22B),专注于解决GUI智能体在实际部署中的四大挑战:

  1. 智能体-用户交互能力不足 - 现有系统缺乏主动询问、澄清用户意图的能力
  2. 仅依赖UI操作的局限性 - 长操作序列容易出错,且无法完成某些任务
  3. 缺乏端云协同架构 - 纯云端方案有隐私风险,纯端侧方案能力受限
  4. 动态环境脆弱性 - 在静态数据上训练的模型难以应对真实场景的多变性
2025-12-28
Vanblog
00

在后台目录新建:

bash
展开代码
vanblog# mkdir data/static/markdown-themes/

然后去找一款主题,比如这里:https://theme.typora.io/