RL 基础 | Policy Gradient 的推导 - 码农知识堂

RL 基础 | Policy Gradient 的推导
去听了 hzxu 老师的 DRL 课，感觉终于听懂了，记录一下…
目录
相关链接：
- RL 基础 | Value Iteration 的收敛性证明
- RL 基础 | Policy Iteration 的收敛性证明
0 我们想做什么

我们想最大化的东西： $J (θ) = E_{τ} [R (τ)]$ ，其中 R 是轨迹的 reward 求和（或 discount 求和）。

我们希望，期望下的轨迹的 reward 求和（reward discounted 求和）最大。

1 三个数学 trick

①： $\nabla_{θ} \log z = \frac{1}{z} \nabla_{θ} z$

②： $E_{x \sim p (x)} [f (x)] = \int p (x) f (x) d x$

③： $a / b = [a \cdot p (x)] / [b \cdot p (x)]$

2 对单个 transition 的 policy gradient

$\begin{aligned} \nabla_{θ} E_{a \sim p (a | s; θ)} [r (a)] & = \nabla_{θ} \sum_{a} p (a ∣ s; θ) r (a) \\ = \sum_{a} r (a) \nabla_{θ} p (a ∣ s; θ) \\ = \sum_{a} r (a) p (a ∣ s; θ) \frac{\nabla_{θ} p (a ∣ s; θ)}{p (a ∣ s; θ)} \\ = \sum_{a}^{a} r (a) p (a ∣ s; θ) \nabla_{θ} \log p (a ∣ s; θ) \\ = E_{a \sim p (a | s; θ)} [r (a) \nabla_{θ} \log p (a ∣ s; θ)] \end{aligned}$
其中，
第一行把单个 (s,a) 的 reward 期望写为 Σπ(a|s)r(s,a) 的形式；
第二行认为 r(a) 是不可微分的，去微分 π(a|s)；
第三行在分数线上下同时塞了一个 π(a|s) （即 p(a|s;θ) ）；
第四行因为 d log z = dz/z，原式变成 p(a|s) $\nabla$ p(a|s) 了；
第五行把 p(a|s) 塞回去，变成了期望下的 r(s,a) $\nabla$ log π(a|s)。

结论：如果想最大化期望下的 r(s,a)，可以把 r(s,a) 放 $\nabla$ 外面，去对 log π(a|s) 求梯度。

3 对整个 trajectory 的 policy gradient

先计算 trajectory 的概率：

$p (τ ∣ θ) = \underset{initial state distribution}{\underset{⏟}{μ (s_{0})}} \cdot \prod_{t = 0}^{T - 1} [\underset{policy}{\underset{⏟}{π (a_{t} ∣ s_{t}, θ)}} \cdot \underset{transition fn.}{\underset{⏟}{p (s_{t + 1}, r_{t} ∣ s_{t}, a_{t})}}]$
然后，对单个 transition，我们有

$\nabla_{θ} E_{x \sim p (x | s; θ)} [r (x)] = E_{x \sim p (x | s; θ)} [r (x) \nabla_{θ} \log p (x ∣ s; θ)]$
对于整个 trajectory 的 total reward 的梯度，应用跟 2 相同的方法（分数线上下同乘 p(τ|theta) ），可以得到

$\nabla_{θ} E_{τ} [R (τ)] = E_{τ} [\underset{What is this?}{\underset{⏟}{\nabla_{θ} \log p (τ ∣ θ)}} \underset{Reward of a trajectory}{\underset{⏟}{R (τ)}}]$
现在，让我们来看 $\nabla_{θ} \log p (τ ∣ θ)$ 。

$\begin{aligned} \log p (τ ∣ θ) & = \log μ (s_{0}) + \log \prod_{t = 0}^{T - 1} [π (a_{t} ∣ s_{t}, θ) \cdot p (s_{t + 1}, r_{t} ∣ s_{t}, a_{t})] \\ = \log μ (s_{0}) + \sum_{t = 0}^{T - 1} \log [π (a_{t} ∣ s_{t}, θ) \cdot p (s_{t + 1}, r_{t} ∣ s_{t}, a_{t})] \\ = \log μ (s_{0}) + \sum_{t = 0}^{T - 1} [\log π (a_{t} ∣ s_{t}, θ) + \log p (s_{t + 1}, r_{t} ∣ s_{t}, a_{t})] \end{aligned}$
其中，
第一行是把 trajectory 的概率展开；
第二行第三行都是把 log(A×B) 变成 logA + logB；
然后发现，只有中间这一项 $\sum_{t = 0}^{T - 1} \log π (a_{t} ∣ s_{t}, θ)$ 带 θ，因此，前后两项都不用跟 θ 求梯度了。

由此，我们得到：

$\nabla_{θ} E_{τ} [R (τ)] = E_{τ} [R (τ) \nabla_{θ} \sum_{t = 0}^{T - 1} \log π (a_{t} ∣ s_{t}, θ)]$
结论：如果想最大化期望下的 R(τ)，可以把 R(τ) 放 $\nabla$ 外面，去求 Σ $\nabla$ log π(a|s) ，即 log [action 概率] 的梯度。

4 REINFORCE 算法
- 使用策略 π(a|s;θ)，生成一个 trajectory： $(s_{0}, a_{0}, r_{1}, . . ., s_{T - 1}, a_{T - 1}, r_{T})$ ；
- 对每个时间步 t，计算回报： $R_{t} = \sum_{k = t + 1}^{T} γ^{k - t - 1} r_{k}$
- 更新策略参数： $θ = θ + α γ^{t} R_{t} \nabla_{θ} l o g π (a_{t} | s_{t}; θ)$
（算法是 GPT 生成的，看起来好像没问题）
相关阅读:
Codeforces 802I - Fake News(hard) 后缀数组+单调栈
 c语言中啥时候用double啥时候用float？
基础(四)之java后端根据经纬度获取地址
 计算全排列
 Cocos creator 学习笔记（2）
web站点的欢迎页面
 C++ constexpr, consteval, 和 constinit简要介绍
 项目管理工具中的线性进度表是什么
 OpenMPI的安装与运行分布式项目
 《Oralce系列》Oracle 常用语句汇总
原文地址：https://www.cnblogs.com/moonout/p/18086974

RL 基础 | Policy Gradient 的推导

0 我们想做什么

1 三个数学 trick

2 对单个 transition 的 policy gradient

3 对整个 trajectory 的 policy gradient

4 REINFORCE 算法