• Advantage Actor-Critic优势演员-评论员(A2C)


    参考:蘑菇书EasyRL

    演员-评论员算法是结合策略梯度和时序差分学习的强化学习方法

    • Advantage Actor-Critic(A2C)
    • Asynchronous Advantage Actor-Critic (A3C)(多进程)

    Asynchronous Methods for Deep Reinforcement Learning

    Policy Gradient梯度策略(PG)_bujbujbiu的博客-CSDN博客

    Proximal Policy Optimization近端策略优化(PPO)_bujbujbiu的博客-CSDN博客

    (建议学习路线:PG——A2C——PPO )

    目录

    1.策略梯度回顾

    2.深度Q网络

    3.优势演员-评论员算法​​​​​​​

    1.策略梯度回顾

    在策略梯度中更新策略参数公式如下: 

    首先通过智能体与环境交互,可以计算某一状态s下采取某一动作a的概率p_\theta \left ( a_t|s_t \right ),接下来计算从状态s执行动作a之后一直到结束的累积折扣奖励,通常将折扣因子设置为0.9或者0.99,同时减去一个基线b,这样括号里面就有正有负,用G表示累积折扣奖励,G是一个随机变量,即便有固定分布,但是方差也很大,采样次数可能不太够的情况下,结果不稳定,如正好采样到G=-10,G=100,结果就会差很多。因此为了训练的稳定性,我们希望能直接固定随机变量G的期望值,这就需要引入value-based的方法即深度Q网络。

    2.深度Q网络

    深度Q网络中有两种函数 ,有两种评论员 

    • V_\pi \left ( s \right ) :假设演员的策略是\pi,使用\pi和环境交互,当智能体看到状态s时,接下来累积奖励的期望值是多少。输入s,输出一个标量
    • Q_\pi \left ( s,a \right )在状态 s 采取动作 a,接下来用策略 π 与环境交互,累积奖励的期望值是多

      少。输入s,输出每个a的Q值

    3.优势演员-评论员算法

    策略梯度中随机变量G的期望值便是Q值

     因此可以使用Q值替换策略参数更新公式中的累积奖励,Q函数表示某一个状态 s,采取某一个动作 a,假设策略是 π 的情况下所能得到的累积奖励的期望值,即 G 的期望值。这样就把演员和评论员两个方法结合。

    对于基线b可以用价值函数V_{\pi _{\theta }}\left ( s_{t}^{n} \right ) ,价值函数的定义为,假设策略是 π,其在某个状态 s 一直与环境交互直到游戏结束,期望奖励有多大。V_{\pi _{\theta }}\left ( s_{t}^{n} \right )没有涉及到动作,Q_{\pi _{\theta }}\left ( s_{t}^{n},a_{t}^{n} \right )​​​​​​​ 涉及到动作,V_{\pi _{\theta }}\left ( s_{t}^{n} \right )Q_{\pi _{\theta }}\left ( s_{t}^{n},a_{t}^{n} \right )的期望值,因此两者差值有正有负,将原先的权重项变成优势函数得到A2C。

     如果这样实现有一个缺点,需要估计两个网络:Q网络和V网络,风险扩大。实际上确实可以只估计V,用V的值表示Q。用期望是因为在s执行a得到的r是什么,进入什么新状态是有随机性的

    但是实际上在实现的时候,去掉了期望值,这样虽然增加了一点r的方差,但是r和G相比只是一小部分,也是合理的,并且论文作者在多次试验后发现,去掉期望值的效果更好。

    注意此处说的Q网络,V网络都是评论员,用V值表示Q值后只有一个评论员,但是还有演员需要与环境交互,因此A2C还是有两个网络(一个演员网络和一个评论员网络)

    我们有一个 π,有个初始的演员与环境交互,先收集资料。在策略梯度方法里收集资料以后,就来更新策略。但是在演员-评论员算法里面,我们不是直接使用那些资料来更新策略。我们先用这些资料去估计价值函数,可以用时序差分方法或蒙特卡洛方法来估计价值函数。接下来,我们再基于价值函数,使用上述参数更新公式更新 π。有了新的 π 以后,再与环境交互,收集新的资料,去估计价值函数。再用新的价值函数更新策略,更新演员。整个优势演员-评论员算法就是这么运作的。

    在实现演员—评论员算法时,有两个技巧: 

    • 演员网络和评论员网络共享一部分层,其输入都是s

    • \pi输出的分布设置一个约束,使分布的熵不要太小,希望不同的动作被采用的概率

      平均一些

  • 相关阅读:
    ubuntu18.04 +CUDA11.1 + pytorch1.8.1 环境配置
    Vue.js 原理分析
    #define 的神奇操作
    C语言课程设计学生考勤管理系统
    数据预处理(预备知识)
    python实现视频剪辑
    阿里云大数据专业认证(ACP),值得报名吗?
    springboot相关-JDBC
    Parameter estimation for text analysis (上)
    npm版本号含义
  • 原文地址:https://blog.csdn.net/weixin_45526117/article/details/126346595