经典强化学习问题设置考虑的决策过程是平稳的环境。但是,作为人类,我们的目标与环境在我们的一生中会随着我们的经历、行动和内外的驱动力不断变化。本文研究 **能否开发出强化学习算法来应对后者中更现实的问题设置的持续变化。**虽然诸如策略梯度等同轨强化学习算法原则上可以扩展到非平稳环境中,但对于采用回放缓冲区的、更有效的离轨强化学习算法,则无法直接扩展。
通常,平稳性假设很少在更现实的环境中成立,例如在持续学习系统的背景下。 在智能体的生命周期中,可能会受到环境的动态变化和随时间变化的奖励的影响。 例如,在机器人应用中,这种非平稳性表现为不断变化的地形和天气条件。在某些情况下,甚至目标也不一定是固定的:考虑一个辅助机器人来帮助一个偏好随时间逐渐变化的人类。 而且,由于平稳性是许多现有 RL 算法的核心假设,它们不太可能在这些环境中表现良好。
至关重要的是,在上述每种情况下,环境都是由未知的时变参数指定的。 这些潜在参数也不是独立同分布的,而是实际上具有相关性但未观察到的动态。
在这项工作中,我们将这个问题形式化,并借鉴。在线学习 和 概率推理 文献中的思想,推导出一种可以推理和解决这种持续非平稳性的离策略 RL 算法。
本文提出 动态参数马尔可夫决策过程(Dynamic Parameter MDP),其中 每个情节(episode)中都会呈现一个新的 MDP(也可以将 MDP 称为任务)。 为了反映现实世界非平稳性的规律性,任务通过一组连续参数顺序相关。
在形式上,DP-MDP 具备有状态空间 S S S、动作空间 A A A 和初始状态分布 ρ s ( s 1 ) ρ_s(s_1) ρs(s1),参考 **隐藏参数马尔可夫决策过程(HiP-MDP)**的公式,一系列不可观测的任务参数 z ∈ Z \mathbf{z} \in \mathcal{Z} z∈Z 定义了 DP-MDP 的状态转移函数 p s ( s t + 1 ∣ s t , a t ; z ) p_{\mathbf{s}}\left(\mathbf{s}_{t+1} \mid \mathbf{s}_t, \mathbf{a}_t ; \mathbf{z}\right) ps(st+1∣st,at;z),和奖励函数 r ( s t , a t ; z ) r\left(\mathbf{s}_t, \mathbf{a}_t ; \mathbf{z}\right) r(st,at;z)。与 Hip-MDP 不同的是,DP-MDP 中的任务参数 z z z 没有服从独立同分布的,而是根据 p z ( z i + 1 ∣ z 1 : i ) p_{\mathbf{z}}\left(\mathbf{z}^{i+1} \mid \mathbf{z}^{1: i}\right) pz(zi+1∣z1:i) 进行随机转移,并且初始分布定义为 ρ z ( z 1 ) \rho_{\mathbf{z}}\left(\mathbf{z}^1\right) ρz(z1)。换句话说,DP-MDP 是一系列任务,其参数由转移函数 p z p_z pz 确定。如果每个情节的任务参数 z z z 是已知的,则增强后的状态空间 S × Z S × Z S×Z 将定义一个完全可观察的 MDP,也就可以使用标准 RL 算法来解决它。因此,在本文的方法中,目标是 推断隐藏的任务参数并学习它们的转换函数,从而 允许通过使用推断的任务参数增加观察来利用现有的 RL 算法。
**连续变化环境的近似模型。**某些环境可能不会仅在情节边界处表现出变化,而是在每个时间步更平滑地变化。形式上,连续变化的环境对于每个情节 i i i 中的每个时间步 t t t 都有一组任务参数 z i t z_i^t zit。虽然这些环境不明确属于 DP-MDP 的定义,但当情节内时间步长 t t t 作为状态 s s s 的一部分 提供或可以推断 时,DP-MDP 可以准确地表示这些环境。 查看此映射的一种方法是定义 DP-MDP,使得情节 i i i 的任务参数是情节中所有参数的连接,即 z ~ i = [ z t i ] t = 1 T \tilde{\mathbf{z}}^i=\left[\mathbf{z}_t^i\right]_{t=1}^T z~i=[zti]t=1T。那么,如果不断变化的环境有动态 p s ′ ( s t + 1 i ∣ s t i , a t i ; z t i ) p_{\mathbf{s}}^{\prime}\left(\mathbf{s}_{t+1}^i \mid \mathbf{s}_t^i, \mathbf{a}_t^i ; \mathbf{z}_t^i\right) ps′(st+1i∣sti,ati;zti),和奖励函数 r ′ ( s t i , a t i ; z t i ) r^{\prime}\left(\mathbf{s}_t^i, \mathbf{a}_t^i ; \mathbf{z}_t^i\right) r′(sti,ati;zti)。状态为 s ~ = [ s , t ] \tilde{\mathbf{s}}=[\mathbf{s}, t] s~=[s,t] 时,这等价于DPMDP,定义为:
p s ( s ~ t + 1 i ∣ s ~ t i , a t i ; z ~ i ) = p s ′ ( s ~ t + 1 i ∣ s t i , a t i ; z ~ i [ t ] ) r ( s ~ t i , a t i ; z ~ i ) = r ′ ( s t i , a t i ; z ~ i [ t ] ) . ps(˜sit+1∣˜sit,ait;˜zi)=p′s(˜sit+1∣sit,ait;˜zi[t])r(˜sit,ait;˜zi)=r′(sit,ait;˜zi[t]).
**此外,即使没有提供时间步长,DP-MDP 仍然可以被视为这些形式的环境变化的量化模型,并且使用这种量化在计算上比在每个时间步长的小变化建模更有效。**在这种解释下,用于求解 DP-MDP 的算法并不一定限于具有集间偏移的环境,并且可以应用于相当一般的非平稳环境。 作者在实验中验证了这一说法,并且确实发现下一节中提出的算法可以解决不断变化的环境的实例。
本文所提出的模型由状态 s t s_t st,动作 a t a_t at 和每个时间步的最优变量 O t O_t Ot 组成。 O t O_t Ot 与奖励相关, p ( O t = 1 ∣ s t , a t ) = exp ( r ( s t , a t ) ) p\left(\mathcal{O}_t=1 \mid \mathbf{s}_t, \mathbf{a}_t\right)=\exp \left(r\left(\mathbf{s}_t, \mathbf{a}_t\right)\right) p(Ot=1∣st,at)=exp(r(st,at)) 表示在状态 s t s_t st 时采取的动作 a t a_t at 是否是最优的。虽然通过这种关系 要求奖励是非正的,但只要奖励是有界的,它们就可以缩放和居中以不大于 0。轨迹是状态和动作的序列 ( s 1 , a 1 , s 2 , . . . , s T , a T ) (s_1, a_1, s_2, ..., s_T, a_T) (s1,a1,s2,...,sT,aT),目标是推断后验分布 p ( s 1 : T , a 1 : T ∣ O 1 : T = 1 ) p\left(\mathbf{s}_{1: T}, \mathbf{a}_{1: T} \mid \mathcal{O}_{1: T}=1\right) p(s1:T,a