• Discrete VS Continuous Control


    Discrete VS Continuous Control

    1.连续动作离散化

    在这里插入图片描述

    离散动作空间DQN,使用DQN近似 Q π Q_{\pi} Qπ,输出每个动作对应的价值。


    在这里插入图片描述

    策略网络则输出动作的概率分布。


    在这里插入图片描述

    当连续动作维度较小时,可以使用离散化。

    在这里插入图片描述

    动作的个数随纬度指数增长。


    2.Deterministic Policy Gradient (DPG)

    在这里插入图片描述
    在这里插入图片描述

    使用确定性策略网络近似 π \pi π ,这里 π \pi π 输出的是一个确定的动作,而不是概率分布。


    价值网络的更新采用TD 算法。

    在这里插入图片描述


    在这里插入图片描述
    在这里插入图片描述

    改进 θ \theta θ 可以让critic 对action评分更高,因此可以对 q q q θ \theta θ 求梯度。

    在这里插入图片描述


    在这里插入图片描述

    价值网络在使用TD target时会出现bootstrapping,导致高估问题。


    在这里插入图片描述

    因此可以采用target network来计算 y t y_t yt,分别用target value network表示 q t + 1 q_{t+1} qt+1 ,target policy network 表示 a t + 1 ′ a_{t+1}^{'} at+1

    在这里插入图片描述


    在这里插入图片描述

    target network 的参数更新可以采用加权平均。


    一些tricks

    在这里插入图片描述


    2.1 随机策略梯度和确定策略梯度两者比较

    在这里插入图片描述

    3.Stochastic Policy for Continuous Control

    在这里插入图片描述

    将每一维的动作的概率分布使用正态分布近似。

    在这里插入图片描述

    这样动作的概率分布就是对应正态分布的乘积。


    在这里插入图片描述

    这里我们采用两个neural network 近似 u u u ln ⁡ σ 2 \ln \sigma^2 lnσ2

    在这里插入图片描述


    在这里插入图片描述

    这里我们就可以得到每维度的动作概率分布 a i a_i ai


    3.1 Training Policy Network

    在这里插入图片描述

    取对数进行变形。

    在这里插入图片描述

    我们同时构造一个辅助网络表示上面的式子。

    在这里插入图片描述

    辅助网络输出的是一个标量,输入是 u u u ρ \rho ρ 还有动作。


    在这里插入图片描述

    通过反向传播,我们可以计算 f f f对于 θ \theta θ的梯度。


    在这里插入图片描述


    在这里插入图片描述

    因为 f f f l n ln ln 加上一个常数,那么显然 ln ⁡ \ln ln 对于 θ \theta θ的偏导等于 f f f对其的偏导。

    在这里插入图片描述


    在这里插入图片描述

    如果采用AC网络的话。

    采用Mente Carlo 近似便可以更新策略网络 θ \theta θ

    然后用TD 算法更新value network。


    在这里插入图片描述

    如果采用REINFORCE的话,怎么通过一次轨迹计算 u t u_t ut,然后Mente Carlo 近似 Q π Q_{\pi} Qπ


    3.2 Summary

    在这里插入图片描述

    在这里插入图片描述

  • 相关阅读:
    五、Spring Boot 整合持久层技术(5)
    【C++】AVL树的插入实现
    node+vue+mysql后台管理系统
    从零开始的PICO开发教程(4)-- VR世界 射线传送、旋转和移动
    面试求职者
    ETCD 入门
    C3P0反序列化链分析
    leaflet教程041: Point 和 LatLng 坐标互相转换
    OpenFeign【与Feign关系 OpenFeign详解】
    整体式离子风棒在产线上的应用
  • 原文地址:https://blog.csdn.net/weixin_45750972/article/details/126873023