什么是强化学习?
强化学习(Reinforcement Learning,RL)是一种机器学习范式,旨在研究智能体(Agent)如何在环境(Environment)中通过试错(Trial and Error)学习策略,以最大化累积奖励(Cumulative Reward)。与监督学习和无监督学习不同,强化学习强调通过序列决策实现长期目标。
强化学习的基础知识
智能体与环境
智能体(Agent) :在环境中执行动作的实体,学习如何选择最优动作。
环境(Environment) :智能体交互的外部系统,提供状态和奖励反馈。
状态(State,S S S ) :环境在某一时刻的具体情况,描述当前情境。
动作(Action,A A A ) :智能体在给定状态下可以采取的行为集合。
奖励(Reward,R R R ) :环境对智能体动作的反馈信号,用于指导学习过程。
马尔可夫过程(Markov Process)
马尔可夫过程是一种具有马尔可夫性质的随机过程,即当前状态完全决定未来状态,与过去状态无关。形式化定义为状态序列 { S t } \{S_t\} { S t } 满足:
P ( S t + 1 = s ′ ∣ S t = s ) = P ( S t + 1 = s ′ ∣ S t = s , S t − 1 , … , S 0 ) P(S_{t+1} = s' | S_t = s) = P(S_{t+1} = s' | S_t = s, S_{t-1}, \dots, S_0) P ( S t + 1 = s ′ ∣ S t = s ) = P ( S t + 1 = s ′ ∣ S t = s , S t − 1 , … , S 0 )
马尔可夫奖励过程(Markov Reward Process)
在马尔可夫过程的基础上添加奖励函数,形成马尔可夫奖励过程,定义为五元组 ⟨ S , P , R , γ ⟩ \langle S, P, R, \gamma \rangle ⟨ S , P , R , γ ⟩ ,其中:
S S S :状态空间
P P P :状态转移概率矩阵
R R R :奖励函数,R ( s ) = E [ R t + 1 ∣ S t = s ] R(s) = \mathbb{E}[R_{t+1} | S_t = s] R ( s ) = E [ R t + 1 ∣ S t = s ]
γ \gamma γ :折扣因子,0 ≤ γ ≤ 1 0 \leq \gamma \leq 1 0 ≤ γ ≤ 1
马尔可夫决策过程(Markov Decision Process, MDP)
强化学习通常通过马尔可夫决策过程来建模,MDP 是一个五元组 ⟨ S , A , P , R , γ ⟩ \langle S, A, P, R, \gamma \rangle ⟨ S , A , P , R , γ ⟩ ,其中:
状态空间(State Space,S S S ) :所有可能状态的集合。
动作空间(Action Space,A A A ) :所有可能动作的集合。
转移概率(Transition Probability,P P P ) :在状态 s s s 下采取动作 a a a 后转移到状态 s ′ s' s ′ 的概率,表示为 P ( s ′ ∣ s , a ) P(s' | s, a) P ( s ′ ∣ s , a ) 。
奖励函数(Reward Function,R R R ) :在状态 s s s 下采取动作 a a a 所获得的即时奖励,表示为 R ( s , a ) R(s, a) R ( s , a ) 。
折扣因子(Discount Factor,γ \gamma γ ) :衡量未来奖励的重要性,取值范围为 0 ≤ γ ≤ 1 0 \leq \gamma \leq 1 0 ≤ γ ≤ 1 。
策略(Policy,π \pi π )
策略是智能体在给定状态下选择动作的规则,定义为从状态到动作的映射:
确定性策略(Deterministic Policy) :π ( s ) = a \pi(s) = a π ( s ) = a ,在状态 s s s 下总是选择动作 a a a 。
随机性策略(Stochastic Policy) :π ( a ∣ s ) = P ( A t = a ∣ S t = s ) \pi(a|s) = P(A_t = a | S_t = s) π ( a ∣ s ) = P ( A t = a ∣ S t = s ) ,在状态 s s s 下以概率 π ( a ∣ s ) \pi(a|s) π ( a ∣ s ) 选择动作 a a a 。
价值函数(Value Function)
价值函数评估在某一状态或状态-动作对下,智能体能够获得的期望累积奖励。
状态价值函数(State Value Function,V π ( s ) V^\pi(s) V π ( s ) ) :
V π ( s ) = E π [ ∑ k = 0 ∞ γ k R t + k + 1 ∣ S t = s ] V^\pi(s) = \mathbb{E}_\pi \left[ \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} \Big| S_t = s \right] V π ( s ) = E π [ k = 0 ∑ ∞ γ k R t + k + 1 ∣ ∣ S t = s ]
动作价值函数(Action Value Function,Q π ( s , a ) Q^\pi(s, a) Q π ( s , a ) ) :
Q π ( s , a ) = E π [ ∑ k = 0 ∞ γ k R t + k + 1 ∣ S t = s , A t = a ] Q^\pi(s, a) = \mathbb{E}_\pi \left[ \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} \Big| S_t = s, A_t = a \right] Q π ( s , a ) = E π [ k = 0 ∑ ∞ γ k R t + k + 1 ∣ ∣ S t = s , A t = a ]
贝尔曼方程(Bellman Equation)
贝尔曼方程描述了价值函数的递归性质。
状态价值函数的贝尔曼方程 :
V π ( s ) = ∑ a ∈ A π ( a ∣ s ) [ R ( s , a ) + γ ∑ s ′ ∈ S P ( s ′ ∣ s , a ) V π ( s ′ ) ] V^\pi(s) = \sum_{a \in A} \pi(a|s) \left[ R(s, a) + \gamma \sum_{s' \in S} P(s'|s, a) V^\pi(s') \right] V π ( s ) = a ∈ A ∑ π ( a ∣ s ) [ R ( s , a ) + γ s ′ ∈ S ∑ P ( s ′ ∣ s , a ) V π ( s ′ ) ]
动作价值函数的贝尔曼方程 :
Q π ( s , a ) = R ( s , a ) + γ ∑ s ′ ∈ S P ( s ′ ∣ s , a ) ∑ a ′ ∈ A π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) Q^\pi(s, a) = R(s, a) + \gamma \sum_{s' \in S} P(s'|s, a) \sum_{a' \in A} \pi(a'|s') Q^\pi(s', a') Q π ( s , a ) = R ( s , a ) + γ s ′ ∈ S ∑ P ( s ′ ∣ s , a ) a ′ ∈ A ∑ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ )
状态价值函数的贝尔曼方程
定义
状态价值函数 ( V^\pi(s) ) 表示在策略 ( \pi ) 下,智能体从状态 ( s ) 开始所能获得的期望累积奖励。贝尔曼方程为状态价值函数提供了一种递归的计算方法。
贝尔曼方程
状态价值函数的贝尔曼方程定义如下:
V π ( s ) = ∑ a ∈ A π ( a ∣ s ) [ R ( s , a ) + γ ∑ s ′ ∈ S P ( s ′ ∣ s , a ) V π ( s ′ ) ] V^\pi(s) = \sum_{a \in A} \pi(a|s) \left[ R(s, a) + \gamma \sum_{s' \in S} P(s'|s, a) V^\pi(s') \right] V π ( s ) = a ∈ A ∑ π ( a ∣ s ) [ R ( s , a ) + γ s ′ ∈ S ∑ P ( s ′ ∣ s , a ) V π ( s ′ ) ]
公式解析
重写后的公式使用Markdown公式样式如下:
V π ( s ) V^\pi(s) V π ( s ) :在策略 π \pi π 下,状态 s s s 的价值,即从 s s s 开始,遵循策略 π \pi π 所能获得的期望累积奖励。
∑ a ∈ A π ( a ∣ s ) \sum_{a \in A} \pi(a|s) ∑ a ∈ A π ( a ∣ s ) :对所有可能的动作 a a a 进行加权求和,权重是策略 π \pi π 在状态 s s s 下选择动作 a a a 的概率。
R ( s , a ) R(s, a) R ( s , a ) :在状态 s s s 下采取动作 a a a 所获得的即时奖励。
γ \gamma γ :折扣因子,介于 0 和 1 之间,用于衡量未来奖励的重要性。较大的 γ \gamma γ 强调长期奖励,较小的 γ \gamma γ 强调短期奖励。
∑ s ′ ∈ S P ( s ′ ∣ s , a ) V π ( s ′ ) \sum_{s' \in S} P(s'|s, a) V^\pi(s') ∑ s ′ ∈ S P ( s ′ ∣ s , a ) V π ( s ′ ) :在状态 s s s 下采取动作 a a a 后,转移到下一个状态 s ′ s' s ′ 的概率 P ( s ′ ∣ s , a ) P(s'|s, a) P ( s ′ ∣ s , a ) 与该状态的价值 V π ( s ′ ) V^\pi(s') V π ( s ′ ) 的加权和。
直观理解
贝尔曼方程表明,当前状态 ( s ) 的价值等于在该状态下,所有可能动作的预期价值之和。每个动作的预期价值由以下两部分组成:
即时奖励 ( R(s, a) ) :执行动作 ( a ) 后立即获得的奖励。
未来状态的价值 γ ∑ s ′ P ( s ′ ∣ s , a ) V π ( s ′ ) \gamma \sum_{s'} P(s'|s, a) V^\pi(s') γ ∑ s ′ P ( s ′ ∣ s , a ) V π ( s ′ ) :执行动作 a a a 后,转移到下一个状态 s ′ s' s ′ 并继续按照策略 π \pi π 行动,所能获得的折扣累积奖励的期望值。
示例
假设有一个简单的迷宫环境,状态空间 S = { s 1 , s 2 } S = \{s_1, s_2\} S = { s 1 , s 2 } ,动作空间 A = { a 1 , a 2 } A = \{a_1, a_2\} A = { a 1 , a 2 } ,策略 π \pi π 在每个状态下均匀随机选择动作,即 π ( a 1 ∣ s ) = π ( a 2 ∣ s ) = 0.5 \pi(a_1|s) = \pi(a_2|s) = 0.5 π ( a 1 ∣ s ) = π ( a 2 ∣ s ) = 0.5 。
假设奖励函数和转移概率如下:
R ( s 1 , a 1 ) = 5 R(s_1, a_1) = 5 R ( s 1 , a 1 ) = 5 ,P ( s 2 ∣ s 1 , a 1 ) = 1 P(s_2|s_1, a_1) = 1 P ( s 2 ∣ s 1 , a 1 ) = 1
R ( s 1 , a 2 ) = 10 R(s_1, a_2) = 10 R ( s 1 , a 2 ) = 10 ,P ( s 2 ∣ s 1 , a 2 ) = 1 P(s_2|s_1, a_2) = 1 P ( s 2 ∣ s 1 , a 2 ) = 1
R ( s 2 , a 1 ) = 0 R(s_2, a_1) = 0 R ( s 2 , a 1 ) = 0 ,P ( s 1 ∣ s 2 , a 1 ) = 1 P(s_1|s_2, a_1) = 1 P ( s 1 ∣ s 2 , a 1 ) = 1
R ( s 2 , a 2 ) = 0 R(s_2, a_2) = 0 R ( s 2 , a 2 ) = 0 ,P ( s 1 ∣ s 2 , a 2 ) = 1 P(s_1|s_2, a_2) = 1 P ( s 1 ∣ s 2 , a 2 ) = 1
设折扣因子 γ = 0.9 \gamma = 0.9 γ = 0.9 ,则贝尔曼方程可表示为:
对于状态 s 1 s_1 s 1 :
V π ( s 1 ) = 0.5 ⋅ [ 5 + 0.9 ⋅ V π ( s 2 ) ] + 0.5 ⋅ [ 10 + 0.9 ⋅ V π ( s 2 ) ] V^\pi(s_1) = 0.5 \cdot [5 + 0.9 \cdot V^\pi(s_2)] + 0.5 \cdot [10 + 0.9 \cdot V^\pi(s_2)] V π ( s 1 ) = 0.5 ⋅ [ 5 + 0.9 ⋅ V π ( s 2 )] + 0.5 ⋅ [ 10 + 0.9 ⋅ V π ( s 2 )]
简化后:
V π ( s 1 ) = 7.5 + 0.9 ⋅ V π ( s 2 ) V^\pi(s_1) = 7.5 + 0.9 \cdot V^\pi(s_2) V π ( s 1 ) = 7.5 + 0.9 ⋅ V π ( s 2 )
对于状态 s 2 s_2 s 2 :
V π ( s 2 ) = 0.5 ⋅ [ 0 + 0.9 ⋅ V π ( s 1 ) ] + 0.5 ⋅ [ 0 + 0.9 ⋅ V π ( s 1 ) ] V^\pi(s_2) = 0.5 \cdot [0 + 0.9 \cdot V^\pi(s_1)] + 0.5 \cdot [0 + 0.9 \cdot V^\pi(s_1)] V π ( s 2 ) = 0.5 ⋅ [ 0 + 0.9 ⋅ V π ( s 1 )] + 0.5 ⋅ [ 0 + 0.9 ⋅ V π ( s 1 )]
简化后:
V π ( s 2 ) = 0.9 ⋅ V π ( s 1 ) V^\pi(s_2) = 0.9 \cdot V^\pi(s_1) V π ( s 2 ) = 0.9 ⋅ V π ( s 1 )
V π ( s 1 ) = 0.5 [ 5 + 0.9 V π ( s 2 ) ] + 0.5 [ 10 + 0.9 V π ( s 2 ) ] V^\pi(s_1) = 0.5 \left[ 5 + 0.9 V^\pi(s_2) \right] + 0.5 \left[ 10 + 0.9 V^\pi(s_2) \right] V π ( s 1 ) = 0.5 [ 5 + 0.9 V π ( s 2 ) ] + 0.5 [ 10 + 0.9 V π ( s 2 ) ]
V π ( s 2 ) = 0.5 [ 0 + 0.9 V π ( s 1 ) ] + 0.5 [ 0 + 0.9 V π ( s 1 ) ] = 0.9 V π ( s 1 ) V^\pi(s_2) = 0.5 \left[ 0 + 0.9 V^\pi(s_1) \right] + 0.5 \left[ 0 + 0.9 V^\pi(s_1) \right] = 0.9 V^\pi(s_1) V π ( s 2 ) = 0.5 [ 0 + 0.9 V π ( s 1 ) ] + 0.5 [ 0 + 0.9 V π ( s 1 ) ] = 0.9 V π ( s 1 )
通过联立方程,可以解得:
V π ( s 1 ) = 0.5 × 5 + 0.5 × 10 + 0.9 × 0.9 V π ( s 1 ) V^\pi(s_1) = 0.5 \times 5 + 0.5 \times 10 + 0.9 \times 0.9 V^\pi(s_1) V π ( s 1 ) = 0.5 × 5 + 0.5 × 10 + 0.9 × 0.9 V π ( s 1 )
V π ( s 1 ) = 2.5 + 5 + 0.81 V π ( s 1 ) V^\pi(s_1) = 2.5 + 5 + 0.81 V^\pi(s_1) V π ( s 1 ) = 2.5 + 5 + 0.81 V π ( s 1 )
V π ( s 1 ) − 0.81 V π ( s 1 ) = 7.5 V^\pi(s_1) - 0.81 V^\pi(s_1) = 7.5 V π ( s 1 ) − 0.81 V π ( s 1 ) = 7.5
0.19 V π ( s 1 ) = 7.5 ⇒ V π ( s 1 ) = 39.47 0.19 V^\pi(s_1) = 7.5 \Rightarrow V^\pi(s_1) = 39.47 0.19 V π ( s 1 ) = 7.5 ⇒ V π ( s 1 ) = 39.47
V π ( s 2 ) = 0.9 × 39.47 = 35.52 V^\pi(s_2) = 0.9 \times 39.47 = 35.52 V π ( s 2 ) = 0.9 × 39.47 = 35.52
动作价值函数的贝尔曼方程
定义
动作价值函数 Q π ( s , a ) Q^\pi(s, a) Q π ( s , a ) 表示在策略 π \pi π 下,从状态 s s s 开始,采取动作 a a a 后所能获得的期望累积奖励。贝尔曼方程为动作价值函数提供了一种递归的计算方法。
贝尔曼方程
动作价值函数的贝尔曼方程定义如下:
Q π ( s , a ) = R ( s , a ) + γ ∑ s ′ ∈ S P ( s ′ ∣ s , a ) ∑ a ′ ∈ A π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) Q^\pi(s, a) = R(s, a) + \gamma \sum_{s' \in S} P(s'|s, a) \sum_{a' \in A} \pi(a'|s') Q^\pi(s', a') Q π ( s , a ) = R ( s , a ) + γ s ′ ∈ S ∑ P ( s ′ ∣ s , a ) a ′ ∈ A ∑ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ )
公式解析
Q π ( s , a ) Q^\pi(s, a) Q π ( s , a ) :在策略 π \pi π 下,状态 s s s 采取动作 a a a 后的价值,即从 s s s 开始,首先采取动作 a a a ,然后遵循策略 π \pi π 所能获得的期望累积奖励。
R ( s , a ) R(s, a) R ( s , a ) :在状态 s s s 下采取动作 a a a 所获得的即时奖励。
γ \gamma γ :折扣因子,介于 0 和 1 之间,用于衡量未来奖励的重要性。
∑ s ′ ∈ S P ( s ′ ∣ s , a ) \sum_{s' \in S} P(s'|s, a) ∑ s ′ ∈ S P ( s ′ ∣ s , a ) :在状态 s s s 下采取动作 a a a 后,转移到下一个状态 s ′ s' s ′ 的概率。
∑ a ′ ∈ A π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) \sum_{a' \in A} \pi(a'|s') Q^\pi(s', a') ∑ a ′ ∈ A π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) :在新状态 s ′ s' s ′ 下,按照策略 π \pi π 选择动作 a ′ a' a ′ 并获得相应价值的期望值。
直观理解
贝尔曼方程表明,动作 a a a 在状态 s s s 下的价值等于:
即时奖励 R ( s , a ) R(s, a) R ( s , a ) :执行动作 a a a 后立即获得的奖励。
未来价值 γ ∑ s ′ P ( s ′ ∣ s , a ) ∑ a ′ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) \gamma \sum_{s'} P(s'|s, a) \sum_{a'} \pi(a'|s') Q^\pi(s', a') γ ∑ s ′ P ( s ′ ∣ s , a ) ∑ a ′ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) :执行动作 a a a 后,转移到下一个状态 s ′ s' s ′ ,并按照策略 π \pi π 继续行动,所能获得的折扣累积奖励的期望值。
示例
继续使用前面的迷宫环境示例,状态空间 S = { s 1 , s 2 } S = \{s_1, s_2\} S = { s 1 , s 2 } ,动作空间 A = { a 1 , a 2 } A = \{a_1, a_2\} A = { a 1 , a 2 } ,策略 π \pi π 均匀随机选择动作,即 π ( a 1 ∣ s ) = π ( a 2 ∣ s ) = 0.5 \pi(a_1|s) = \pi(a_2|s) = 0.5 π ( a 1 ∣ s ) = π ( a 2 ∣ s ) = 0.5 。
贝尔曼方程为动作价值函数:
Q π ( s 1 , a 1 ) = 5 + 0.9 × ∑ s ′ P ( s ′ ∣ s 1 , a 1 ) ∑ a ′ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) Q^\pi(s_1, a_1) = 5 + 0.9 \times \sum_{s'} P(s'|s_1, a_1) \sum_{a'} \pi(a'|s') Q^\pi(s', a') Q π ( s 1 , a 1 ) = 5 + 0.9 × s ′ ∑ P ( s ′ ∣ s 1 , a 1 ) a ′ ∑ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ )
Q π ( s 1 , a 1 ) = 5 + 0.9 × 1 × [ 0.5 Q π ( s 2 , a 1 ) + 0.5 Q π ( s 2 , a 2 ) ] Q^\pi(s_1, a_1) = 5 + 0.9 \times 1 \times \left[ 0.5 Q^\pi(s_2, a_1) + 0.5 Q^\pi(s_2, a_2) \right] Q π ( s 1 , a 1 ) = 5 + 0.9 × 1 × [ 0.5 Q π ( s 2 , a 1 ) + 0.5 Q π ( s 2 , a 2 ) ]
Q π ( s 1 , a 2 ) = 10 + 0.9 × 1 × [ 0.5 Q π ( s 2 , a 1 ) + 0.5 Q π ( s 2 , a 2 ) ] Q^\pi(s_1, a_2) = 10 + 0.9 \times 1 \times \left[ 0.5 Q^\pi(s_2, a_1) + 0.5 Q^\pi(s_2, a_2) \right] Q π ( s 1 , a 2 ) = 10 + 0.9 × 1 × [ 0.5 Q π ( s 2 , a 1 ) + 0.5 Q π ( s 2 , a 2 ) ]
Q π ( s 2 , a 1 ) = 0 + 0.9 × 1 × [ 0.5 Q π ( s 1 , a 1 ) + 0.5 Q π ( s 1 , a 2 ) ] Q^\pi(s_2, a_1) = 0 + 0.9 \times 1 \times \left[ 0.5 Q^\pi(s_1, a_1) + 0.5 Q^\pi(s_1, a_2) \right] Q π ( s 2 , a 1 ) = 0 + 0.9 × 1 × [ 0.5 Q π ( s 1 , a 1 ) + 0.5 Q π ( s 1 , a 2 ) ]
Q π ( s 2 , a 2 ) = 0 + 0.9 × 1 × [ 0.5 Q π ( s 1 , a 1 ) + 0.5 Q π ( s 1 , a 2 ) ] Q^\pi(s_2, a_2) = 0 + 0.9 \times 1 \times \left[ 0.5 Q^\pi(s_1, a_1) + 0.5 Q^\pi(s_1, a_2) \right] Q π ( s 2 , a 2 ) = 0 + 0.9 × 1 × [ 0.5 Q π ( s 1 , a 1 ) + 0.5 Q π ( s 1 , a 2 ) ]
通过联立上述方程,可以求解 Q π ( s , a ) Q^\pi(s, a) Q π ( s , a ) 的值。
状态价值函数与动作价值函数的关系
贝尔曼方程展示了状态价值函数和动作价值函数之间的内在联系。具体而言:
状态价值函数 是在给定策略 π \pi π 下,对状态的期望价值评估,它是动作价值函数的加权和:
V π ( s ) = ∑ a ∈ A π ( a ∣ s ) Q π ( s , a ) V^\pi(s) = \sum_{a \in A} \pi(a|s) Q^\pi(s, a) V π ( s ) = a ∈ A ∑ π ( a ∣ s ) Q π ( s , a )
动作价值函数 提供了在特定状态下采取特定动作的期望价值评估,可以看作是对状态价值函数的进一步细化。
这种关系使得我们可以通过优化动作价值函数来间接优化状态价值函数,进而优化策略 π \pi π 。
最优价值函数与最优策略
最优状态价值函数 :
V ∗ ( s ) = max π V π ( s ) V^*(s) = \max_\pi V^\pi(s) V ∗ ( s ) = π max V π ( s )
最优动作价值函数 :
Q ∗ ( s , a ) = max π Q π ( s , a ) Q^*(s, a) = \max_\pi Q^\pi(s, a) Q ∗ ( s , a ) = π max Q π ( s , a )
最优策略 π ∗ \pi^* π ∗ 满足:
π ∗ ( s ) = arg max a Q ∗ ( s , a ) \pi^*(s) = \arg\max_a Q^*(s, a) π ∗ ( s ) = arg a max Q ∗ ( s , a )
强化学习的关键算法
动态规划(Dynamic Programming)
动态规划利用贝尔曼方程,通过迭代计算价值函数和策略,适用于已知环境模型的情况。
蒙特卡洛方法(Monte Carlo Methods)
蒙特卡洛方法基于模拟多个完整的序列(Episode),通过平均化累积奖励来估计价值函数。
时序差分学习(Temporal Difference Learning)
时序差分结合了动态规划和蒙特卡洛方法的特点,通过单步更新来估计价值函数。
TD(0) 更新规则 :
V ( S t ) ← V ( S t ) + α [ R t + 1 + γ V ( S t + 1 ) − V ( S t ) ] V(S_t) \leftarrow V(S_t) + \alpha [R_{t+1} + \gamma V(S_{t+1}) - V(S_t)] V ( S t ) ← V ( S t ) + α [ R t + 1 + γV ( S t + 1 ) − V ( S t )]
深度强化学习与损失函数
深度Q网络(Deep Q-Network, DQN)
DQN 使用神经网络近似 Q 函数,解决了高维状态空间下的 Q 学习问题。
损失函数的定义
在深度强化学习中,损失函数用于衡量当前 Q 网络与目标 Q 网络之间的差距,从而指导网络参数的更新。
DQN 的均方误差损失函数 :
L ( θ ) = E ( s , a , r , s ′ ) ∼ D [ ( y − Q ( s , a ; θ ) ) 2 ] L(\theta) = \mathbb{E}_{(s,a,r,s') \sim \mathcal{D}} \left[ \left( y - Q(s, a; \theta) \right)^2 \right] L ( θ ) = E ( s , a , r , s ′ ) ∼ D [ ( y − Q ( s , a ; θ ) ) 2 ]
其中,目标值 y y y 定义为:
y = r + γ max a ′ Q ( s ′ , a ′ ; θ − ) y = r + \gamma \max_{a'} Q(s', a'; \theta^-) y = r + γ a ′ max Q ( s ′ , a ′ ; θ − )
θ \theta θ :当前 Q 网络的参数。
θ − \theta^- θ − :目标 Q 网络的参数,定期更新为 θ \theta θ 的副本。
D \mathcal{D} D :经验回放缓冲区,存储过往的交互数据。
改进的损失函数
双重 DQN(Double DQN) :
解决 DQN 中的过度估计问题,损失函数的目标值修改为:
y = r + γ Q ( s ′ , arg max a ′ Q ( s ′ , a ′ ; θ ) ; θ − ) y = r + \gamma Q(s', \arg\max_{a'} Q(s', a'; \theta); \theta^-) y = r + γ Q ( s ′ , arg a ′ max Q ( s ′ , a ′ ; θ ) ; θ − )
优先经验回放(Prioritized Experience Replay) :
根据 TD 误差对样本进行加权,提高学习效率。
策略梯度方法的损失函数 :
在策略梯度方法中,优化的目标是最大化策略的期望回报,其损失函数通常定义为负的期望回报:
L ( θ ) = − E π θ [ ∑ t = 0 ∞ γ t R t + 1 ] L(\theta) = -\mathbb{E}_{\pi_\theta} \left[ \sum_{t=0}^{\infty} \gamma^t R_{t+1} \right] L ( θ ) = − E π θ [ t = 0 ∑ ∞ γ t R t + 1 ]
使用梯度上升更新参数:
θ ← θ + α ∇ θ L ( θ ) \theta \leftarrow \theta + \alpha \nabla_\theta L(\theta) θ ← θ + α ∇ θ L ( θ )
损失函数代码实现
以下是 DQN 损失函数的 PyTorch 实现示例,包含了双重 DQN 的改进:
import torch
import torch.nn as nn
import torch.optim as optim
policy_net = QNetwork(state_size, action_size)
target_net = QNetwork(state_size, action_size)
optimizer = optim.Adam(policy_net.parameters(), lr=1e-3 )
criterion = nn.MSELoss()
def compute_loss (batch, gamma ):
states, actions, rewards, next_states, dones = batch
q_values = policy_net(states).gather(1 , actions.unsqueeze(1 )).squeeze(1 )
next_actions = policy_net(next_states).max (1 )[1 ].unsqueeze(1 )
next_q_values = target_net(next_states).gather(1 , next_actions).squeeze(1 )
target_q_values = rewards + gamma * next_q_values * (1 - dones)
loss = criterion(q_values, target_q_values.detach())
return loss
def train_step (batch, gamma ):
optimizer.zero_grad()
loss = compute_loss(batch, gamma)
loss.backward()
optimizer.step()
马尔可夫链详解
马尔可夫链(Markov Chain)
马尔可夫链是最简单的马尔可夫过程,状态和转移概率构成了整个过程,没有奖励和动作的概念。其定义为二元组 ⟨ S , P ⟩ \langle S, P \rangle ⟨ S , P ⟩ ,其中:
S S S :有限的状态空间。
P P P :状态转移概率矩阵,P ( s ′ ∣ s ) P(s'|s) P ( s ′ ∣ s ) 表示从状态 s s s 转移到状态 s ′ s' s ′ 的概率。
马尔可夫性质
马尔可夫链满足无记忆性,即未来状态只依赖于当前状态,与过去的状态无关。
状态转移矩阵
状态转移矩阵 P P P 是一个 ∣ S ∣ × ∣ S ∣ |S| \times |S| ∣ S ∣ × ∣ S ∣ 的矩阵,元素 P i j P_{ij} P ij 表示从状态 s i s_i s i 转移到状态 s j s_j s j 的概率。
应用
马尔可夫链被广泛应用于随机过程的建模,如天气预测、股市分析和页面排名算法(如 PageRank)。
强化学习在游戏中的应用
AlphaGo
由 DeepMind 开发的 AlphaGo 通过结合深度神经网络和蒙特卡洛树搜索,成功击败了世界顶级围棋选手。其主要技术亮点包括:
策略网络 :预测下一步最有可能的动作。
价值网络 :评估当前局面的胜率。
自我对弈 :通过与自身对弈生成大量高质量数据。
OpenAI Five
OpenAI Five 是一个能够在《Dota 2》中与人类专业玩家对抗的 AI 系统。其特点包括:
多智能体协作 :需要五个智能体协同作战。
长时间序列决策 :游戏时间长,状态空间巨大。
策略优化 :使用了 PPO(Proximal Policy Optimization)算法。
Atari 游戏
DeepMind 使用 DQN 在多款 Atari 2600 游戏中达到了超越人类的表现。关键技术包括:
像素输入 :直接从原始像素图像学习。
经验回放 :打破数据相关性,提升学习稳定性。
目标网络 :稳定 Q 值的估计,防止震荡。
参考资料
结论
强化学习作为机器学习的重要分支,融合了控制理论、神经网络和优化等多个领域的知识。通过对马尔可夫决策过程、价值函数和策略的深入理解,结合深度学习技术,强化学习在游戏、机器人控制和自动驾驶等领域取得了显著成果。希望本文能帮助读者全面了解强化学习的核心概念和前沿应用,激发进一步探索的兴趣。
参考代码
以下是一个基于策略梯度方法的强化学习算法(REINFORCE)的实现示例:
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
class PolicyNetwork (nn.Module):
def __init__ (self, state_size, action_size ):
super (PolicyNetwork, self).__init__()
self.fc1 = nn.Linear(state_size, 128 )
self.fc2 = nn.Linear(128 , action_size)
def forward (self, x ):
x = F.relu(self.fc1(x))
x = F.softmax(self.fc2(x), dim=1 )
return x
policy_net = PolicyNetwork(state_size, action_size)
optimizer = optim.Adam(policy_net.parameters(), lr=1e-3 )
def select_action (state ):
state = torch.from_numpy(state).float ().unsqueeze(0 )
probs = policy_net(state)
m = torch.distributions.Categorical(probs)
action = m.sample()
return action.item(), m.log_prob(action)
saved_log_probs = []
rewards = []
def finish_episode (gamma ):
R = 0
policy_loss = []
returns = []
for r in rewards[::-1 ]:
R = r + gamma * R
returns.insert(0 , R)
returns = torch.tensor(returns)
returns = (returns - returns.mean()) / (returns.std() + 1e-5 )
for log_prob, R in zip (saved_log_probs, returns):
policy_loss.append(-log_prob * R)
optimizer.zero_grad()
policy_loss = torch.cat(policy_loss).sum ()
policy_loss.backward()
optimizer.step()
del rewards[:]
del saved_log_probs[:]