Discrete VS Continuous Control - 码农知识堂 - 文章详情页

Discrete VS Continuous Control

Discrete VS Continuous Control

1.连续动作离散化

离散动作空间DQN，使用DQN近似 $Q_{\pi}$ ，输出每个动作对应的价值。

策略网络则输出动作的概率分布。

当连续动作维度较小时，可以使用离散化。

动作的个数随纬度指数增长。

2.Deterministic Policy Gradient (DPG)

使用确定性策略网络近似 $\pi$ ，这里 $\pi$ 输出的是一个确定的动作，而不是概率分布。

价值网络的更新采用TD 算法。

改进 $\theta$ 可以让critic 对action评分更高，因此可以对 $q$ 的 $\theta$ 求梯度。

价值网络在使用TD target时会出现bootstrapping，导致高估问题。

因此可以采用target network来计算 $y_t$ ，分别用target value network表示 $q_{t+1}$ ，target policy network 表示 $a_{t+1}^{'}$

target network 的参数更新可以采用加权平均。

一些tricks

2.1 随机策略梯度和确定策略梯度两者比较

 3.Stochastic Policy for Continuous Control

将每一维的动作的概率分布使用正态分布近似。

这样动作的概率分布就是对应正态分布的乘积。

这里我们采用两个neural network 近似 $u$ 和 $\ln \sigma^2$

这里我们就可以得到每维度的动作概率分布 $a_i$

3.1 Training Policy Network

取对数进行变形。

我们同时构造一个辅助网络表示上面的式子。

辅助网络输出的是一个标量，输入是 $u$ 和 $\rho$ 还有动作。

通过反向传播，我们可以计算 $f$ 对于 $\theta$ 的梯度。

因为 $f$ 是 $l n$ 加上一个常数，那么显然 $\ln$ 对于 $\theta$ 的偏导等于 $f$ 对其的偏导。

如果采用AC网络的话。

采用Mente Carlo 近似便可以更新策略网络 $\theta$ 。

然后用TD 算法更新value network。

如果采用REINFORCE的话，怎么通过一次轨迹计算 $u_t$ ，然后Mente Carlo 近似 $Q_{\pi}$

3.2 Summary
相关阅读:
五、Spring Boot 整合持久层技术（5）
【C++】AVL树的插入实现
 node+vue+mysql后台管理系统
 从零开始的PICO开发教程（4）-- VR世界射线传送、旋转和移动
 面试求职者
 ETCD 入门
 C3P0反序列化链分析
 leaflet教程041: Point 和 LatLng 坐标互相转换
 OpenFeign【与Feign关系 OpenFeign详解】
整体式离子风棒在产线上的应用
原文地址：https://blog.csdn.net/weixin_45750972/article/details/126873023