2025-12-17
LLaMA-Factory
00

mask_history 参数详解

1. 基本定义

54:57:src/llamafactory/hparams/data_args.py
展开代码
mask_history: bool = field( default=False, metadata={"help": "Whether or not to mask the history and train on the last turn only."}, )
2025-12-16
DL论文
00

https://arxiv.org/pdf/2509.02544

1. 他们到底想解决什

2025-12-15
工具使用
00

要让Cursor(VSCode)在Windows任务栏显示工程名称而不是文件名,需要修改VSCode

2025-12-15
深度学习
00
2025-12-12
深度学习
00

tools工作流说明

tools工作流:

  • 客户端请求是openai式json。
  • vllm收到json后解析为模型可以理解的字符串。
  • 模型推理,得到结果字符串。
  • vllm解析结果字符串为json。
  • vllm返回openai式json。
2025-12-11
深度学习
00
2025-12-10
Linux运维
00

win:

js
展开代码
C:\Users\Administrator\.wslconfig

w

2025-12-10
深度学习
00
2025-12-10
工具使用
00
2025-12-08
深度学习
00

深入理解 GRPO 强化学习:从 PPO 到 Group Relative Policy Optimization

当 DeepSeek-R1 横空出世,以开源姿态挑战 OpenAI 的 o1 模型时,整个 AI 社区都在关注一个问题:他们是如何做到的?答案的关键之一就是 GRPO (Group Relative Policy Optimization) —— 一种更高效的强化学习算法。

本文将带你从零开始理解 GRPO,看看它如何在保持性能的同时,将训练成本降低了近 50%。