• 深入理解强化学习——马尔可夫决策过程:策略


    分类目录:《深入理解强化学习》总目录


    智能体的策略(Policy)通常用字母 π \pi π表示。策略 π ( a ∣ s ) = P ( A t = a ∣ S t = s ) \pi(a|s)=P(A_t=a|S_t=s) π(as)=P(At=aSt=s)是一个函数,表示在输入状态 s s s情况下采取动作 s s s的概率。当一个策略是确定性策略(Deterministic Policy)时,它在每个状态时只输出一个确定性的动作,即只有该动作的概率为1,其他动作的概率为0;当一个策略是随机性策略(Stochastic Policy)时,它在每个状态时输出的是关于动作的概率分布,然后根据该分布进行采样就可以得到一个动作。在马尔可夫决策过程中,由于马尔可夫性质的存在,策略只需要与当前状态有关,不需要考虑历史状态。回顾一下在马尔可夫奖励过程中的价值函数,在 MDP 中也同样可以定义类似的价值函数。但此时的价值函数与策略有关,这意为着对于两个不同的策略来说,它们在同一个状态下的价值也很可能是不同的。这很好理解,因为不同的策略会采取不同的动作,从而之后会遇到不同的状态,以及获得不同的奖励,所以它们的累积奖励的期望也就不同,即状态价值不同。

    概率代表在所有可能的动作里面怎样采取行动,比如可能有0.7的概率往左走,有0.3的概率往右走,这是一个概率的表示。另外策略也可能是确定的,它有可能直接输出一个值,或者直接告诉我们当前应该采取什么样的动作,而不是一个动作的概率。假设概率函数是平稳的(Stationary),不同时间点,我们采取的动作其实都是在对策略函数进行采样。

    已知马尔可夫决策过程和策略 π \pi π,我们可以把马尔可夫决策过程转换成马尔可夫奖励过程。在马尔可夫决策过程里面,状态转移函数 P ( s ′ ∣ s , a ) P(s'|s, a) P(ss,a)基于它当前的状态以及它当前的动作。因为我们现在已知策略函数,也就是已知在每一个状态下,可能采取的动作的概率,所以我们就可以直接把动作进行加和,去掉 a a a,这样我们就可以得到对于马尔可夫奖励过程的转移,这里就没有动作,即:
    P π ( s ′ ∣ s ) = ∑ a ∈ A π ( a ∣ s ) p ( s ′ ∣ s , a ) P_\pi(s'|s)=\sum_{a\in A}\pi(a|s)p(s'|s, a) Pπ(ss)=aAπ(as)p(ss,a)

    对于奖励函数,我们也可以把动作去掉,这样就会得到类似于马尔可夫奖励过程的奖励函数,即:
    r π ( s ) = ∑ a ∈ A π ( a ∣ s ) R ( s , a ) r_\pi(s)=\sum_{a\in A}\pi(a|s)R(s, a) rπ(s)=aAπ(as)R(s,a)

    参考文献:
    [1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
    [2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
    [3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
    [4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022

  • 相关阅读:
    [源码系列:手写spring] IOC第十三节:Bean作用域,增加prototype的支持
    JackJson多态
    【@property参数总结 Objective-C语言】
    重装系统后没声音如何解决
    Linux用户操作(22.9.21)
    Flink实时计算中台Kubernates功能改造点
    微服务框架 SpringCloud微服务架构 10 使用Docker 10.5 容器命令案例2
    密码学 | 承诺:绑定性 + 隐藏性
    mac录屏快捷键 - mac截图截屏快捷键 - 自带录屏软件QuickTime Player如何使用
    正则表达式re模块的使用教程『更新中』
  • 原文地址:https://blog.csdn.net/hy592070616/article/details/134517455