目录
强化学习关键术语
1. 基础概念
状态(State)
动作(Action)
奖励(Reward)
2. 核心函数
状态价值函数 $ V^\pi(s) $
动作价值函数 $ Q^\pi(s, a) $
优势函数 $ A^\pi(s, a) $
最优价值函数 $ V^(s), Q^(s, a) $
3. 策略与优化
策略 $ \pi(a \mid s) $
贝尔曼方程(Bellman Equation)
占用度量(Occupancy Measure)
4. 算法相关
回报(Return)$ G_t $
广义优势估计(GAE)
重要性采样(Importance Sampling)
总结表
强化学习关键术语
以下是强化学习中所有关键专有名词的统一解释,结合理论定义与直观理解,便于快速查阅。
1. 基础概念
状态(State)
- 定义:环境在某一时刻的具体情况,用 s 表示(如机器人当前位置)。
- 例子:围棋棋盘布局、自动驾驶汽车的传感器数据。
动作(Action)
- 定义:智能体在某个状态下可以采取的行为,用 a 表示(如“向左移动”)。
- 离散动作:有限选项(如上下左右)。
- 连续动作:无限可能(如方向盘转角)。
奖励(Reward)
- 定义:智能体执行动作后环境返回的即时反馈,用 R(s,a) 或 rt 表示。
- 设计原则:鼓励目标行为(如到达终点 +10,撞墙 -5)。
2. 核心函数
状态价值函数 Vπ(s)
- 定义:在状态 s 下,遵循策略 π 的期望总回报。
- 公式:
Vπ(s)=Eπ[Gt∣St=s]
- 直观理解:回答“从这个状态出发,按策略走下去平均能获得多少回报”。
动作价值函数 Qπ(s,a)
- 定义:在状态 s 执行动作 a 后,再按策略 π 的期望总回报。
- 公式:
Qπ(s,a)=Eπ[Gt∣St=s,At=a]
- 直观理解:回答“如果在这个状态做这个动作,之后继续按策略走,能获得多少回报”。
优势函数 Aπ(s,a)
- 定义:衡量动作 a 相比策略 π 在状态 s 的平均表现有多好。
- 公式:
Aπ(s,a)=Qπ(s,a)−Vπ(s)
- 用途:用于PPO等算法中评估动作的相对优劣(正优势表示优于平均)。
最优价值函数 V∗(s),Q∗(s,a)
- 定义:所有策略中可以获得的最大价值。
- 公式:
V∗(s)=πmaxVπ(s),Q∗(s,a)=πmaxQπ(s,a)
- 关系:
V∗(s)=amaxQ∗(s,a)
3. 策略与优化
策略 π(a∣s)
- 定义:在状态 s 下选择动作 a 的概率分布。
- 确定性策略:π(s)=固定动作(如“总是向右”)。
- 随机性策略:按概率选择动作(如“80% 向左,20% 向右”)。
贝尔曼方程(Bellman Equation)
- 状态价值形式:
Vπ(s)=a∑π(a∣s)(R(s,a)+γs′∑P(s′∣s,a)Vπ(s′))
- 最优形式:
V∗(s)=amax(R(s,a)+γs′∑P(s′∣s,a)V∗(s′))
- 意义:将价值函数递归分解为当前奖励和未来价值之和,是动态规划的基础。
占用度量(Occupancy Measure)
- 定义:策略 π 与环境交互时,状态动作对 (s,a) 的长期访问概率。
- 公式:
ρπ(s,a)=(1−γ)t=0∑∞γtPπ(St=s,At=a)
- 用途:模仿学习中用于匹配专家数据的分布。
4. 算法相关
回报(Return)Gt
- 定义:从时间步 t 开始的折扣累积奖励。
- 公式:
Gt=Rt+γRt+1+γ2Rt+2+⋯
- 折扣因子 γ:控制远期奖励的重要性(γ=0 只关注眼前,γ=1 等同于求总和)。
广义优势估计(GAE)
- 定义:PPO中用于平衡偏差与方差的优势估计方法。
- 公式:
AtGAE=k=0∑T−t(γλ)kδt+k,其中 δt=Rt+γV(st+1)−V(st)
- 参数 λ:调节蒙特卡洛(λ=1)与TD(λ=0)之间的混合比例。
重要性采样(Importance Sampling)
- 用途:用于比较新旧策略的动作概率差异,避免策略突变。
- 公式:
πold(a∣s)πnew(a∣s)
总结表
名词 | 定义 | 公式/例子 |
---|
状态 s | 环境的当前情况 | 机器人坐标、游戏画面像素 |
动作 a | 智能体的行为选择 | 离散:{左, 右};连续:速度值 |
奖励 R(s,a) | 动作后的即时反馈 | 赢棋+1,输棋-1 |
Vπ(s) | 状态 s 的长期价值 | Vπ(s)=Eπ[Gt∣St=s] |
Qπ(s,a) | 动作 a 在状态 s 的长期价值 | Qπ(s,a)=R(s,a)+γE[Vπ(s′)] |
优势函数 A | 动作比平均表现的好坏 | Aπ(s,a)=Qπ(s,a)−Vπ(s) |
PPO | 通过裁剪策略更新步长保证稳定性的策略梯度算法 | 目标函数:min(πoldπnewAt,clip(...)) |
本文作者:Dong
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。
许可协议。转载请注明出处!