强化学习——策略梯度理解点

策略梯度计算公式

目的是最大化reward函数，即调整 θ ，使得期望回报最大，可以用公式表示如下
$\mathrm{J}(\theta)=\mathrm{E}_{\tau \sim p}(\mathcal{T})\left[\sum_{\mathrm{t}} \mathrm{r}\left(\mathrm{s}_{t}, \mathrm{a}_{\mathrm{t}}\right)\right]$
对于上面的式子， $\tau$ 表示从从开始到结束的一条完整路径。通常，对于最大化问题，我们可以使用梯度上升算法来找到最大值，即
$\theta^{*}=\theta+\alpha \nabla \mathrm{J}(\theta)$
所以我们仅仅需要计算 (更新) $\nabla J(\theta)$ ，也就是计算回报函数 $J(\theta)$ 关于 $\theta$ 的梯度，也就是策略梯度，计算方法如下:

\begin{aligned} \nabla_{θ} J (θ) & = \int \nabla_{θ p_{θ}} (τ) r (τ) d_{τ} \\ = \int p_{θ} \nabla_{θ} \log p_{θ} (τ) r (τ) d_{τ} \\ = E_{τ \sim p θ (τ)} [\nabla_{θ} \log p_{θ} (τ) r (τ)] \end{aligned}

\nabla_{θ} J (θ) = \int \nabla_{θ p_{θ}} (τ) r (τ) d_{τ} = \int p_{θ} \nabla_{θ} lo g p_{θ} (τ) r (τ) d_{τ} = E_{τ \sim p θ (τ)} [\nabla_{θ} lo g p_{θ} (τ) r (τ)]

接着我们继续讲上式展开，对于

\mathrm{p}_{\theta}(\tau)

，即

\mathrm{p}_{\theta}(\tau \mid \theta)

:

\mathrm{p}_{\theta}(\tau \mid \theta)=\mathrm{p}\left(\mathrm{s}_{1}\right) \prod_{t=1}^{\mathrm{T}} \pi_{\theta}\left(\mathrm{a}_{t} \mid \mathrm{s}_{\mathrm{t}}\right) \mathrm{p}\left(\mathrm{s}_{t+1} \mid \mathrm{s}_{t}, \mathrm{a}_{\mathrm{t}}\right)

取对数后为：

\log p_{\theta}(\tau \mid \theta)=\log p\left(s_{1}\right)+\sum_{t=1}^{T} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right) p\left(s_{t+1} \mid s_{t}, a_{t}\right)

继续求导:

\nabla \log p_{\theta}(\tau \mid \theta)=\sum_{t=1}^{T} \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right)

带入第三个式子，可以将其化简为:

\begin{aligned} \nabla_{θ} J (θ) & = E_{τ \sim p θ (τ)} [\nabla_{θ} \log p_{θ} (τ) r (τ)] \\ = E_{τ \sim p θ} [(\nabla_{θ} \log π_{θ} (a_{t} ∣ s_{t})) (\sum_{t = 1}^{T} r (s_{t}, a_{t}))] \\ = \frac{1}{N} \sum_{i = 1}^{N} [(\sum_{t = 1}^{T} \nabla_{θ} \log π_{θ} (a_{i, t} ∣ s_{i, t})) (\sum_{t = 1}^{N} r (s_{i, t}, a_{i, t}))] \end{aligned}

重要性重采样

使用另外一种数据分布，来逼近所求分布的一种方法，算是一种期望修正的方法，公式是:

\begin{aligned} \int f (x) p (x) d x & = \int f (x) \frac{p (x)}{q (x)} q (x) d x \\ = E_{x \sim q} [f (x) \frac{p (x)}{q (x)}] \\ = E_{x \sim p} [f (x)] \end{aligned}

\int f (x) p (x) dx = \int f (x) \frac{p ( x )}{q ( x )} q (x) dx = E_{x \sim q} [f (x) \frac{p ( x )}{q ( x )}] = E_{x \sim p} [f (x)]

在已知

q

的分布后，可以使用上述公式计算出从 p 分布的期望值。也就可以使用

q

来对于 p 进行采样了，即为重要性采样。

相关阅读:
DataFunSummit：2023年智能风控技术峰会-核心PPT资料下载
若依微服务版本集成积木报表
TouchGFX之后端通信
MySQL集群：双主模式
Java面向对象16：接口的定义与实现
视频一键转码：批量转换MP4视频的技巧
C#自定义窗体更换皮肤的方法：创建特殊窗体
MySQL—一条查询SQL语句的完整执行流程
Unity Shader ASE基础效果思路与代码(一)：遮罩、硬边溶解、光边溶解、UV扰动
DRU-Net--一种用于医学图像分割的高效深度卷积神经网络

原文地址：https://blog.csdn.net/weixin_42917352/article/details/125882984