编辑
2025-05-19
深度学习
00

目录

强化学习关键术语
1. 基础概念
状态(State)
动作(Action)
奖励(Reward)
2. 核心函数
状态价值函数 $ V^\pi(s) $
动作价值函数 $ Q^\pi(s, a) $
优势函数 $ A^\pi(s, a) $
最优价值函数 $ V^(s), Q^(s, a) $
3. 策略与优化
策略 $ \pi(a \mid s) $
贝尔曼方程(Bellman Equation)
占用度量(Occupancy Measure)
4. 算法相关
回报(Return)$ G_t $
广义优势估计(GAE)
重要性采样(Importance Sampling)
总结表

强化学习关键术语

以下是强化学习中所有关键专有名词的统一解释,结合理论定义与直观理解,便于快速查阅。


1. 基础概念

状态(State)

  • 定义:环境在某一时刻的具体情况,用 ss 表示(如机器人当前位置)。
  • 例子:围棋棋盘布局、自动驾驶汽车的传感器数据。

动作(Action)

  • 定义:智能体在某个状态下可以采取的行为,用 aa 表示(如“向左移动”)。
  • 离散动作:有限选项(如上下左右)。
  • 连续动作:无限可能(如方向盘转角)。

奖励(Reward)

  • 定义:智能体执行动作后环境返回的即时反馈,用 R(s,a)R(s, a)rtr_t 表示。
  • 设计原则:鼓励目标行为(如到达终点 +10,撞墙 -5)。

2. 核心函数

状态价值函数 Vπ(s)V^\pi(s)

  • 定义:在状态 ss 下,遵循策略 π\pi 的期望总回报。
  • 公式
    Vπ(s)=Eπ[GtSt=s]V^\pi(s) = \mathbb{E}_\pi \left[ G_t \mid S_t = s \right]
  • 直观理解:回答“从这个状态出发,按策略走下去平均能获得多少回报”。

动作价值函数 Qπ(s,a)Q^\pi(s, a)

  • 定义:在状态 ss 执行动作 aa 后,再按策略 π\pi 的期望总回报。
  • 公式
    Qπ(s,a)=Eπ[GtSt=s,At=a]Q^\pi(s, a) = \mathbb{E}_\pi \left[ G_t \mid S_t = s, A_t = a \right]
  • 直观理解:回答“如果在这个状态做这个动作,之后继续按策略走,能获得多少回报”。

优势函数 Aπ(s,a)A^\pi(s, a)

  • 定义:衡量动作 aa 相比策略 π\pi 在状态 ss 的平均表现有多好。
  • 公式
    Aπ(s,a)=Qπ(s,a)Vπ(s)A^\pi(s, a) = Q^\pi(s, a) - V^\pi(s)
  • 用途:用于PPO等算法中评估动作的相对优劣(正优势表示优于平均)。

最优价值函数 V(s),Q(s,a)V^*(s), Q^*(s, a)

  • 定义:所有策略中可以获得的最大价值。
  • 公式
    V(s)=maxπVπ(s),Q(s,a)=maxπQπ(s,a)V^*(s) = \max_\pi V^\pi(s), \quad Q^*(s, a) = \max_\pi Q^\pi(s, a)
  • 关系
    V(s)=maxaQ(s,a)V^*(s) = \max_a Q^*(s, a)

3. 策略与优化

策略 π(as)\pi(a \mid s)

  • 定义:在状态 ss 下选择动作 aa 的概率分布。
  • 确定性策略π(s)=固定动作\pi(s) = \text{固定动作}(如“总是向右”)。
  • 随机性策略:按概率选择动作(如“80% 向左,20% 向右”)。

贝尔曼方程(Bellman Equation)

  • 状态价值形式
    Vπ(s)=aπ(as)(R(s,a)+γsP(ss,a)Vπ(s))V^\pi(s) = \sum_a \pi(a|s) \left( R(s,a) + \gamma \sum_{s'} P(s'|s,a) V^\pi(s') \right)
  • 最优形式
    V(s)=maxa(R(s,a)+γsP(ss,a)V(s))V^*(s) = \max_a \left( R(s,a) + \gamma \sum_{s'} P(s'|s,a) V^*(s') \right)
  • 意义:将价值函数递归分解为当前奖励和未来价值之和,是动态规划的基础。

占用度量(Occupancy Measure)

  • 定义:策略 π\pi 与环境交互时,状态动作对 (s,a)(s, a) 的长期访问概率。
  • 公式
    ρπ(s,a)=(1γ)t=0γtPπ(St=s,At=a)\rho^\pi(s, a) = (1 - \gamma) \sum_{t=0}^\infty \gamma^t P_\pi(S_t = s, A_t = a)
  • 用途:模仿学习中用于匹配专家数据的分布。

4. 算法相关

回报(Return)GtG_t

  • 定义:从时间步 tt 开始的折扣累积奖励。
  • 公式
    Gt=Rt+γRt+1+γ2Rt+2+G_t = R_t + \gamma R_{t+1} + \gamma^2 R_{t+2} + \cdots
  • 折扣因子 γ\gamma:控制远期奖励的重要性(γ=0\gamma=0 只关注眼前,γ=1\gamma=1 等同于求总和)。

广义优势估计(GAE)

  • 定义:PPO中用于平衡偏差与方差的优势估计方法。
  • 公式
    AtGAE=k=0Tt(γλ)kδt+k,其中 δt=Rt+γV(st+1)V(st)A_t^{\text{GAE}} = \sum_{k=0}^{T-t} (\gamma \lambda)^k \delta_{t+k}, \quad \text{其中 } \delta_t = R_t + \gamma V(s_{t+1}) - V(s_t)
  • 参数 λ\lambda:调节蒙特卡洛(λ=1\lambda=1)与TD(λ=0\lambda=0)之间的混合比例。

重要性采样(Importance Sampling)

  • 用途:用于比较新旧策略的动作概率差异,避免策略突变。
  • 公式
    πnew(as)πold(as)\frac{\pi_{\text{new}}(a \mid s)}{\pi_{\text{old}}(a \mid s)}


总结表

名词定义公式/例子
状态 ss环境的当前情况机器人坐标、游戏画面像素
动作 aa智能体的行为选择离散:{左, 右};连续:速度值
奖励 R(s,a)R(s, a)动作后的即时反馈赢棋+1,输棋-1
Vπ(s)V^\pi(s)状态 ss 的长期价值Vπ(s)=Eπ[GtSt=s]V^\pi(s) = \mathbb{E}_\pi [G_t \mid S_t = s]
Qπ(s,a)Q^\pi(s, a)动作 aa 在状态 ss 的长期价值Qπ(s,a)=R(s,a)+γE[Vπ(s)]Q^\pi(s, a) = R(s, a) + \gamma \mathbb{E}[V^\pi(s')]
优势函数 AA动作比平均表现的好坏Aπ(s,a)=Qπ(s,a)Vπ(s)A^\pi(s, a) = Q^\pi(s, a) - V^\pi(s)
PPO通过裁剪策略更新步长保证稳定性的策略梯度算法目标函数:min(πnewπoldAt,clip(...))\min \left( \frac{\pi_{\text{new}}}{\pi_{\text{old}}} A_t, \text{clip}(...) \right)

如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!