【论文阅读】Deep Reinforcement Learning amidst Continual Structured Non-Stationarity

1 本文解决了什么问题？

经典强化学习问题设置考虑的决策过程是平稳的环境。但是，作为人类，我们的目标与环境在我们的一生中会随着我们的经历、行动和内外的驱动力不断变化。本文研究 **能否开发出强化学习算法来应对后者中更现实的问题设置的持续变化。**虽然诸如策略梯度等同轨强化学习算法原则上可以扩展到非平稳环境中，但对于采用回放缓冲区的、更有效的离轨强化学习算法，则无法直接扩展。

通常，平稳性假设很少在更现实的环境中成立，例如在持续学习系统的背景下。 在智能体的生命周期中，可能会受到环境的动态变化和随时间变化的奖励的影响。例如，在机器人应用中，这种非平稳性表现为不断变化的地形和天气条件。在某些情况下，甚至目标也不一定是固定的：考虑一个辅助机器人来帮助一个偏好随时间逐渐变化的人类。而且，由于平稳性是许多现有 RL 算法的核心假设，它们不太可能在这些环境中表现良好。

至关重要的是，在上述每种情况下，环境都是由未知的时变参数指定的。这些潜在参数也不是独立同分布的，而是实际上具有相关性但未观察到的动态。

在这项工作中，我们将这个问题形式化，并借鉴。在线学习 和 概率推理 文献中的思想，推导出一种可以推理和解决这种持续非平稳性的离策略 RL 算法。

2 本文提出的解决方法是什么？

2.1 动态参数马尔可夫决策过程（DP-MDP）

本文提出 动态参数马尔可夫决策过程（Dynamic Parameter MDP），其中 每个情节（episode）中都会呈现一个新的 MDP（也可以将 MDP 称为任务）。为了反映现实世界非平稳性的规律性，任务通过一组连续参数顺序相关。

在形式上，DP-MDP 具备有状态空间 $S$ 、动作空间 $A$ 和初始状态分布 $ρ_s(s_1)$ ，参考 **隐藏参数马尔可夫决策过程（HiP-MDP）**的公式，一系列不可观测的任务参数 $\mathbf{z} \in \mathcal{Z}$ 定义了 DP-MDP 的状态转移函数 $p_{\mathbf{s}}\left(\mathbf{s}_{t+1} \mid \mathbf{s}_t, \mathbf{a}_t ; \mathbf{z}\right)$ ，和奖励函数 $r\left(\mathbf{s}_t, \mathbf{a}_t ; \mathbf{z}\right)$ 。与 Hip-MDP 不同的是，DP-MDP 中的任务参数 $z$ 没有服从独立同分布的，而是根据 $p_{\mathbf{z}}\left(\mathbf{z}^{i+1} \mid \mathbf{z}^{1: i}\right)$ 进行随机转移，并且初始分布定义为 $\rho_{\mathbf{z}}\left(\mathbf{z}^1\right)$ 。换句话说，DP-MDP 是一系列任务，其参数由转移函数 $p_z$ 确定。如果每个情节的任务参数 $z$ 是已知的，则增强后的状态空间 $S \times Z$ 将定义一个完全可观察的 MDP，也就可以使用标准 RL 算法来解决它。因此，在本文的方法中，目标是 推断隐藏的任务参数并学习它们的转换函数，从而 允许通过使用推断的任务参数增加观察来利用现有的 RL 算法。

**连续变化环境的近似模型。**某些环境可能不会仅在情节边界处表现出变化，而是在每个时间步更平滑地变化。形式上，连续变化的环境对于每个情节 $i$ 中的每个时间步 $t$ 都有一组任务参数 $z_i^t$ 。虽然这些环境不明确属于 DP-MDP 的定义，但当情节内时间步长 $t$ 作为状态 $s$ 的一部分 提供或可以推断 时，DP-MDP 可以准确地表示这些环境。查看此映射的一种方法是定义 DP-MDP，使得情节 $i$ 的任务参数是情节中所有参数的连接，即 $\tilde{\mathbf{z}}^i=\left[\mathbf{z}_t^i\right]_{t=1}^T$ 。那么，如果不断变化的环境有动态 $p_{\mathbf{s}}^{\prime}\left(\mathbf{s}_{t+1}^i \mid \mathbf{s}_t^i, \mathbf{a}_t^i ; \mathbf{z}_t^i\right)$ ，和奖励函数 $r^{\prime}\left(\mathbf{s}_t^i, \mathbf{a}_t^i ; \mathbf{z}_t^i\right)$ 。状态为 $\tilde{\mathbf{s}}=[\mathbf{s}, t]$ 时，这等价于DPMDP，定义为：

p_{s} (\tilde{s}_{t + 1}^{i} ∣ \tilde{s}_{t}^{i}, a_{t}^{i}; \tilde{z}^{i}) r (\tilde{s}_{t}^{i}, a_{t}^{i}; \tilde{z}^{i}) = p_{s}^{'} (\tilde{s}_{t + 1}^{i} ∣ s_{t}^{i}, a_{t}^{i}; \tilde{z}^{i} [t]) = r^{'} (s_{t}^{i}, a_{t}^{i}; \tilde{z}^{i} [t]) .

**此外，即使没有提供时间步长，DP-MDP 仍然可以被视为这些形式的环境变化的量化模型，并且使用这种量化在计算上比在每个时间步长的小变化建模更有效。**在这种解释下，用于求解 DP-MDP 的算法并不一定限于具有集间偏移的环境，并且可以应用于相当一般的非平稳环境。作者在实验中验证了这一说法，并且确实发现下一节中提出的算法可以解决不断变化的环境的实例。

2.2 先验：将强化学习作为推理

2.2.1 强化学习的概率图模型（Probabilistic Graphical Model）

本文所提出的模型由状态 $s_t$ ，动作 $a_t$ 和每个时间步的最优变量 $O_t$ 组成。 $O_t$ 与奖励相关， $p\left(\mathcal{O}_t=1 \mid \mathbf{s}_t, \mathbf{a}_t\right)=\exp \left(r\left(\mathbf{s}_t, \mathbf{a}_t\right)\right)$ 表示在状态 $s_t$ 时采取的动作 $a_t$ 是否是最优的。虽然通过这种关系 要求奖励是非正的，但只要奖励是有界的，它们就可以缩放和居中以不大于 0。轨迹是状态和动作的序列 $s_1, a_1, s_2, ..., s_T, a_T)$ ，目标是推断后验分布 $p\left(\mathbf{s}_{1: T}, \mathbf{a}_{1: T} \mid \mathcal{O}_{1: T}=1\right)$

相关阅读:
充分理清限制与条件+构造二分图+最小割：ARC142E
清览题库--C语言程序设计第五版编程题解析（3）
2022-08-06 第四小组修身课学习笔记（every day）
C++单元测试GoogleTest和GoogleMock十分钟快速上手(gtest&gmock)
CH341/CH340Linux驱动使用教程
【机器学习】Logistic 分类回归算法（二元分类 & 多元分类）
nodejs中的错误类型及捕获处理
【技术积累】算法中的贪心算法【一】
安全防御设备---防火墙2
常见激活函数及其导数

原文地址：https://blog.csdn.net/weixin_41960890/article/details/126914320