esc

请输入并搜索

【知识点】强化学习关键术语

2025-05-19

00

强化学习术语强化学习状态动作奖励 q函数与v函数 ppo算法原理贝尔曼方程解析

目录

强化学习关键术语

以下是强化学习中所有关键专有名词的统一解释，结合理论定义与直观理解，便于快速查阅。

1. 基础概念

状态（State）

定义：环境在某一时刻的具体情况，用 $s$ 表示（如机器人当前位置）。
例子：围棋棋盘布局、自动驾驶汽车的传感器数据。

动作（Action）

定义：智能体在某个状态下可以采取的行为，用 $a$ 表示（如“向左移动”）。
离散动作：有限选项（如上下左右）。
连续动作：无限可能（如方向盘转角）。

奖励（Reward）

定义：智能体执行动作后环境返回的即时反馈，用 $R(s, a)$ 或 $r_t$ 表示。
设计原则：鼓励目标行为（如到达终点 +10，撞墙 -5）。

2. 核心函数

状态价值函数 $V^\pi(s)$

定义：在状态 $s$ 下，遵循策略 $\pi$ 的期望总回报。
公式： $V^\pi(s) = \mathbb{E}_\pi \left[ G_t \mid S_t = s \right]$
直观理解：回答“从这个状态出发，按策略走下去平均能获得多少回报”。

动作价值函数 $Q^\pi(s, a)$

定义：在状态 $s$ 执行动作 $a$ 后，再按策略 $\pi$ 的期望总回报。
公式： $Q^\pi(s, a) = \mathbb{E}_\pi \left[ G_t \mid S_t = s, A_t = a \right]$
直观理解：回答“如果在这个状态做这个动作，之后继续按策略走，能获得多少回报”。

优势函数 $A^\pi(s, a)$

定义：衡量动作 $a$ 相比策略 $\pi$ 在状态 $s$ 的平均表现有多好。
公式： $A^\pi(s, a) = Q^\pi(s, a) - V^\pi(s)$
用途：用于PPO等算法中评估动作的相对优劣（正优势表示优于平均）。

最优价值函数 $V^(s), Q^(s, a)$

定义：所有策略中可以获得的最大价值。
公式： $V^*(s) = \max_\pi V^\pi(s), \quad Q^*(s, a) = \max_\pi Q^\pi(s, a)$
关系： $V^*(s) = \max_a Q^*(s, a)$

3. 策略与优化

策略 $\pi(a \mid s)$

定义：在状态 $s$ 下选择动作 $a$ 的概率分布。
确定性策略： $\pi(s) = \text{固定动作}$ （如“总是向右”）。
随机性策略：按概率选择动作（如“80% 向左，20% 向右”）。

贝尔曼方程（Bellman Equation）

状态价值形式： $V^\pi(s) = \sum_a \pi(a|s) \left( R(s,a) + \gamma \sum_{s'} P(s'|s,a) V^\pi(s') \right)$
最优形式： $V^*(s) = \max_a \left( R(s,a) + \gamma \sum_{s'} P(s'|s,a) V^*(s') \right)$
意义：将价值函数递归分解为当前奖励和未来价值之和，是动态规划的基础。

占用度量（Occupancy Measure）

定义：策略 $\pi$ 与环境交互时，状态动作对 $(s, a)$ 的长期访问概率。
公式： $\rho^\pi(s, a) = (1 - \gamma) \sum_{t=0}^\infty \gamma^t P_\pi(S_t = s, A_t = a)$
用途：模仿学习中用于匹配专家数据的分布。

4. 算法相关

回报（Return） $G_t$

定义：从时间步 $t$ 开始的折扣累积奖励。
公式： $G_t = R_t + \gamma R_{t+1} + \gamma^2 R_{t+2} + \cdots$
折扣因子 $\gamma$ ：控制远期奖励的重要性（ $\gamma=0$ 只关注眼前， $\gamma=1$ 等同于求总和）。

广义优势估计（GAE）

定义：PPO中用于平衡偏差与方差的优势估计方法。
公式： $A_t^{\text{GAE}} = \sum_{k=0}^{T-t} (\gamma \lambda)^k \delta_{t+k}, \quad \text{其中 } \delta_t = R_t + \gamma V(s_{t+1}) - V(s_t)$
参数 $\lambda$ ：调节蒙特卡洛（ $\lambda=1$ ）与TD（ $\lambda=0$ ）之间的混合比例。

重要性采样（Importance Sampling）

用途：用于比较新旧策略的动作概率差异，避免策略突变。
公式： $\frac{\pi_{\text{new}}(a \mid s)}{\pi_{\text{old}}(a \mid s)}$

总结表

名词	定义	公式/例子
状态 $s$	环境的当前情况	机器人坐标、游戏画面像素
动作 $a$	智能体的行为选择	离散：{左, 右}；连续：速度值
奖励 $R(s, a)$	动作后的即时反馈	赢棋+1，输棋-1
$V^\pi(s)$	状态 $s$ 的长期价值	$V^\pi(s) = \mathbb{E}_\pi [G_t \mid S_t = s]$
$Q^\pi(s, a)$	动作 $a$ 在状态 $s$ 的长期价值	$Q^\pi(s, a) = R(s, a) + \gamma \mathbb{E}[V^\pi(s')]$
优势函数 $A$	动作比平均表现的好坏	$A^\pi(s, a) = Q^\pi(s, a) - V^\pi(s)$
PPO	通过裁剪策略更新步长保证稳定性的策略梯度算法	目标函数： $\min \left( \frac{\pi_{\text{new}}}{\pi_{\text{old}}} A_t, \text{clip}(...) \right)$

如果对你有用的话，可以打赏哦

打赏

ali pay

wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外，均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改，但必须注明出处并提供原作者链接。许可协议。转载请注明出处！

< RoPE 旋转位置编码详解与计算示例

VBA判断当前Word有多少个表格 >

目录