Press
esc
to close
请输入并搜索
Dong
Dong
首页
标签
分类
时间线
友链
动态
工具
联系我
Press
Ctrl
+
and
K
to search
深度学习
Linux运维
单片机
Python
CPP
Android/Java
Docker
OpenCV
Matlab
售卖作品
深度学习ban
单片机ban
DL论文
建站教程
树莓派
算法刷题
提示词工程
数学之美
工具使用
课程学习
见闻录
备忘录
隐藏机密
自动控制
摄影技巧
Git
LLaMA-Factory
ROS
GRPO
Vanblog
Distill
usefulScripts
首页
标签
分类
时间线
友链
动态
工具
联系我
ppo算法原理
3 文章 × 17866 字
2025-05-19
【知识点】强化学习关键术语
强化学习术语
强化学习状态动作奖励
q函数与v函数
+2
2025-05-12
【知识点】PPO、DPO、KTO
ppo算法原理
dpo强化学习
kto训练方法
+2
2025-05-12
【知识点】PPO强化学习
ppo算法原理
ppo-clip实现
强化学习算法
+2
Dong
个人博客|深度学习|编程开发|嵌入电子|自动控制|算法深耕|
2250
日志
32
分类
5205
标签