蒙特卡洛树搜索方法介绍——算力聚焦方法(二) 反向聚焦(优先级遍历)

蒙特卡洛树搜索方法介绍——优先级遍历

引言

引言

上一节针对 $Dy na - Q$ 算法执行过程中的问题，介绍了算力聚焦思想以及 $Dy na - Q +$ 算法思路。本节将继续介绍基于算力聚焦思想的另一种算法——优先级遍历算法。

回顾：算力聚焦思想

算力聚焦的自身矛盾

算力聚焦的矛盾问题本质上是探索(Exploration)与利用(Exploitation)的矛盾问题：

利用：在状态-动作对的选择过程中，使用算力聚焦思想提高 区分性，从而提高算力对 $Q - t ab l e$ 的更新效率；
探索：真实环境中可能存在某状态-动作对被选择概率很低，但这种状态-动作对也可能存在重要的信息，希望对各状态-动作对都能兼顾；

Dyna-Q+方法处理矛盾的思路

$Dy na - Q +$ 方法主要通过探索自身定义出发构建假设：针对很久没有被访问过的状态-动作对，使用增加对应状态的奖励结果来增加该状态的状态转移频率。具体做法是构建一个关于奖励增量与未被访问的时间间隔之间的函数：
$\gets R + \kappa \sqrt{\tau}$

具体思路：

一旦增加了奖励结果 $R$ ，必然影响对应的状态-动作价值函数 $Q (s, a)$ ；
根据策略改进中关于动作的贪心算法， $Q (s, a)$ 会影响动作的选择；
从增加状态转移至想要被访问状态的频率；
虽然动态特性函数 $\mid s,a)$ 无法变化(真实环境因素影响)，但由于状态转移的频率增加，转移至 想要被访问状态 的机会明显增大。

其本质上是针对 $Dy na - Q$ 算法中探索(Exploration)部分处理不足产生的想法。

反向聚焦(优先级遍历算法)

思路构建

由于 $Dy na - Q$ 算法对状态-动作对的 纯随机选择 导致算力资源浪费的情况，介绍反向聚焦的核心思想：

在状态-动作对的选择过程中，给予它们 分别性。

具体想法是：如果将 $Dy na - Q$ 规划过程中的模拟经验与 $Q - T ab l e$ 的更新 集中在某些特定的状态-动作对上，这样规划过程会更加高效。

现在的问题已经转化为：如何挑选规划过程更加高效的状态-动作对，或者说如何定义某种状态-动作对，使规划过程更加高效。

基于上述问题，思考：强化学习求解的任务无非就是希望智能体能够状态转移至终结状态，即情节结束。
基于该思考，提出一个极端假设：

如果事先知道终结状态的信息，可以从终结状态开始寻找它的前继状态，得到前继状态，再继续寻找前继状态的前继状态，以此类推，直至当前状态。此时就知道下一次状态转移更希望选择哪个状态，从而调整当前策略对动作的选择，从而给 状态转移创造机会。
但并不是所有的问题都像‘迷宫问题’一样能够找到‘终结状态信息(迷宫出口)’。

上述假设之所以极端，是因为在真实情况下，我们可能无法找到终结状态的信息。因此，基于上述假设，可以提出一个 更一般的假设(反向聚焦)(Backward Focusing)：

相比于极端假设，我们不需要 只关注最优状态(终结状态)，只需要关注 优秀的状态-动作对 即可，或者说，定义一个规则：通过规则来判断哪些状态-动作对是优秀的，哪些不是优秀的即可。
好的状态-动作对的‘评判标准’是什么——自然是状态-动作价值函数Q(s,a)。
假设已经知道某一状态-动作对的 $Q (s, a)$ 是好的——此时已经得到一个不错的状态 $s$ ；以 $s$ 为目标，观察 哪些状态通过状态转移有机会转移至 $s$ ，这些状态被列为重点观察对象，这些状态同样可以通过 $Q (s, a)$ 放入优先级队列中，排在最前面的自然是转移至 $s$ 后收益最大的状态，以此类推。

该方法与 $Dy na - Q +$ 方法相对应，其本质上是针对 $Dy na - Q$ 算法中利用(Exploitation)部分处理不足产生的想法。

反向聚焦算法执行过程

观察反向聚焦算法的执行过程：
输入部分(Input)：

折扣系数： $\gamma$ ；
超参数： $\theta$ ，用于处理优先级队列的排序问题；
$\epsilon \in (0,1)$ ：用于构建 $\epsilon-$ 贪心策略；
$n$ ：正整数，用于规划过程的遍历次数；

初始化部分(Initialization)：

$\in \mathcal S,a \in \mathcal A(s)$ ；
$\to Q(s,a) \in \mathbb R$ ；
模拟环境： $\in \mathbb R$ ；
队列 $\to Null$ ；

算法部分
学习过程：

结合非终结状态 $S_t$ 和对应在 $Q - T ab l e$ 中的 $\in \mathcal A(S_t))$ ，构建一个基于 $\epsilon-$ 贪心算法的策略 $\pi(S_t)$ ；
从策略 $\pi$ 中选择一个动作 $A_t$ ；
执行动作 $A_t$ ，经过状态转移得到下一时刻状态 $S_{t+1},R_{t+1}$ ；
将确定性环境 $S_{t+1},R_{t+1})$ 存储在模拟环境对应位置 $Model(S_t,A_t)$ 中；
$Model(S_t,A_t) \gets S_{t+1},R_{t+1}$

至此，上述产生真实经验(Real Experience)过程与模型学习(Model Learning)过程和 $Dy na - Q$ 没有区分；但是在 直接强化学习过程(Direct Reinforcement Learning)中存在明显差异：

计算状态转移后，真实样本 $S_{t+1},R_{t+1}$ 产生的 增量信息 $P$ ：
$\gets \left|R_{t+1} + \gamma \mathop{\max}\limits_{a} Q(S_{t+1},a) - Q(S_t,A_t)\right|$
判断 $P$ 与超参数 $\theta$ 之间的大小关系：
如果 $P>\theta$ ，将 $S_t,A_t)$ 以优先级 $P$ 插入队列；
$\quad P >\theta:(S_t,A_t) \xrightarrow{P} PQueue$

至此，学习过程 结束。相比 $Dy na - Q$ 算法，它删除了直接强化学习过程，而是以增量信息 $P$ 为评价标准，将其插入对应队列位置中。
由于绝对值的原因，转移后的价值函数信息并不一定比转移之前的好，只是说明两者之间的差距较大。

规划过程：

根据学习过程中增量信息 $P$ 的排序，选择第一顺位的状态动作对 $(s, a)$ ：
$\gets first(PQueue)$
通过模拟环境得到下一时刻的状态转移结果 $s^{'}, r$ ;
$\gets Model(s,a)$
针对模拟样本 $(s, a, s^{'}, r)$ 对 $Q - T ab l e$ 进行更新：
$\gets Q(s,a) + \alpha \left[r + \gamma \mathop{\max}\limits_{a} Q(s',a) - Q(s,a)\right]$

该部分为产生模拟经验与间接强化学习过程。相比于 $Dy na - Q$ 算法，该部分最大区别是将真实经验与模拟经验一视同仁——只要不是 $PQ u e u e$ 中的第一顺位，就没有机会执行强化学习过程。

遍历所有可能通过状态转移得到状态 $s$ 的所有状态-动作对 $(\hat s,\hat a)$ ；
这里可能会产生若干对 $(\hat s,\hat a)$ ;
$\{(\hat {s_1},\hat {a_1}),(\hat {s_2},\hat {a_2}),\cdots\}$
$\hat r \gets \hat s,\hat a$ 转移至状态 $s$ 的预期奖赏；
注意：这个条件实际上是‘非常苛刻’的: 状态-动作对 $(\hat s,\hat a)$ 在状态转移过程中可能存在若干种‘下一时刻状态’(包含状态 $s$ )，但这里只要转移至状态 $s$ 的奖赏。
即每一对 $(\hat s,\hat a)$ 均对应一个 $\hat r$ ;
$\{\hat {r_1},\hat {r_2},\cdots\}$
将所有产生的模拟样本计算增量结果：
$\{(\hat {s_1},\hat {a_1},\hat {r_1},s),(\hat {s_2},\hat {a_2},\hat {r_2},s),\cdots\} \\ P_i \gets \left|\hat {r_i} + \gamma \mathop{\max}\limits_{a} Q(s,a) - Q(\hat {s_i},\hat {a_i})\right|(i = 1,2,\cdots) \\ \{P_1,P_2,\cdots\}$
对上述增量结果 $P_i$ 进行筛选，如果 $P_i > \theta \to$ 将 $P_i$ 对应的( $\hat {s_i},\hat {a_i}$ )加入到 $PQ u e u e$ 队列中。
$\quad P_i >\theta:(\hat {s_i},\hat {a_i}) \xrightarrow{P_i} PQueue$

算法结束。最终可得到优化后的 $Q - T ab l e$ 。
总结优先遍历算法的特点：

删除了真实经验对 $Q - T ab l e$ 更新的特权：只要不是 $PQ u e u e$ 队列的第一顺位，都没有机会对 $Q - T ab l e$ 进行更新；
每一次规划过程内部有产生了一个嵌套循环，这导致每一次规划过程都可能产生 若干个新的状态-动作对加入队列以及一个最优状态-动作对从队列中产生，这种操作会导致早期增量结果较高的状态-动作对被极大程度地发掘其“价值潜力”。

下一节将介绍决策时间规划。

相关参考：
【强化学习】规划与学习-算力聚焦
深度强化学习原理、算法与PyTorch实战——刘全、黄志刚编著

相关阅读:
数学建模学习（73）：用Python敏感性分析,如此轻松简单
文件服务器
【云原生之Docker实战】使用Docker部署Ubooquity个人漫画服务器
02-React脚手架+Todos项目(组件拆分, State应用, 组件通信+数据校验, nanoid)
Cobbler
为何学linux及用处
String常量池理解
37手游云平台基于Flink+Hologres大数据建设实践
HaaS学习笔记 | HaaS框架环境下基于MicroPython的LED跑马灯实现及比较
uni-app集成uni-simple-router，报错：Uncaught ReferenceError: ROUTES is not defined

原文地址：https://blog.csdn.net/qq_34758157/article/details/126175732