Soft Actor-Critic(SAC算法)

强化学习—— Soft Actor-Critic(SAC算法

1. 基本概念
2. soft actor critic
3. 算法流程

1. 基本概念

1.1 soft Q-value

$\tau ^\pi Q(s_t,a_t)=r(s_t,a_t) + \gamma \cdot E_{s_{t +1}\sim p}[V(s_{t+1})]$

1.2 soft state value function

$V(s_t)=E_{a_t \sim \pi}[Q(s_t,a_t)-\alpha \cdot log\pi(a_t|s_t)]$

1.3 Soft Policy Evaluation

$Q^{k+1}=\tau^\pi Q^k$
当k趋于无穷时， $Q^k$ 将收敛至 $\pi$ 的soft Q-value。
证明：
$r_\pi(s_t,a_t)=r(s_t,a_t)+\gamma \cdot E_{s_{t+1}\sim p}[H(\pi(\cdot | s_{t+1}))]$
$Q(s_t,a_t) = r(s_t,a_t)+\gamma \cdot E_{s_{t+1}\sim p}[H(\pi(\cdot | s_{t+1})) + E_{s_{t+1},a_{t+1}\sim \rho_\pi}[Q(s_{t+1},a_{t+1})]$
$Q(s_t,a_t) = r(s_t,a_t)+\gamma \cdot E_{s_{t+1},a_{t+1}\sim \rho_\pi}[-log(\pi(a_{t+1} | s_{t+1})) + E_{s_{t+1},a_{t+1}\sim \rho_\pi}[Q(s_{t+1},a_{t+1})]$
$Q(s_t,a_t) = r(s_t,a_t)+\gamma \cdot E_{s_{t+1},a_{t+1}\sim \rho_\pi}[Q(s_{t+1},a_{t+1})-log(\pi(a_{t+1} | s_{t+1}))$
当|A|<∞时，可以保证熵有界，因而能保证收敛。

1.4 policy improvement

$\pi_{new}=argmin_{\pi^{'}\in \Pi}D_{KL}(\pi^{'}(\cdot|s_t)||\frac{exp(Q^{\pi_{old}}(s_t,\cdot))}{Z^{\pi_{old}}(s_t)})$

1.5 soft policy improvemrnt

$Q^{\pi_{new}}(s_t,a_t)≥Q^{\pi_{old}}(s_t,a_t)$
s.t.为：
$\pi_{old}\in \Pi,(s_t,a_t)\in S × A, |A| < ∞$
证明如下：
$\pi_{new}=argmin_{\pi^{'}\in \Pi}D_{KL}(\pi^{'}(\cdot|s_t)||exp(Q^{\pi_{old}}(s_t,\cdot)-log(Z(s_t))))\\ =argmin_{\pi^{'}\in \Pi}J_{\pi_{old}}(\pi^{'}(\cdot|s_t))$
$J_{\pi_{old}}(\pi^{'}(\cdot|s_t)) = E_{a_t \sim \pi^{'}}[log(\pi^{'}(s_t,a_t))-Q^{\pi_{old}}(s_t,a_t)+log(Z(s_t))]$
由于一直可以取 $\pi_{new}=\pi_{old}$ ,所有总能满足：
$E_{a_t\sim \pi_{new}}[log(\pi_{new}(a_t|s_t))-Q^{\pi_{old}}(s_t,a_t)]≤E_{a_t \in \pi_{old}}[log(\pi_{old}(a_t|s_t))-Q^{\pi_{old}}(s_t,a_t)]$

$E_{a_t\sim \pi_{new}}[log(\pi_{new}(a_t|s_t))-Q^{\pi_{old}}(s_t,a_t)]≤ - V^{\pi_{old}}(s_t)\\E_{a_t\sim \pi_{new}}[Q^{\pi_{old}}(s_t,a_t)-log(\pi_{new}(a_t|s_t))]≥V^{\pi_{old}}(s_t)$
$Q^{\pi_{old}}(s_t,a_t)=r(s_t,a_t)+\gamma \cdot E_{s_{t+1}\sim p }[V^{\pi_{old}}(s_{t+1})]\\ ≤r(s_t,a_t)+\gamma \cdot E_{s_{t+1}\sim p E_{a_{t+1}\sim \pi_{new}}}[Q^{\pi_{old}}(s_t,a_t)-log(\pi_{new}(a_t|s_t)]\\ ≤..........\\ ≤Q^{\pi_{new}}(s_t,a_t)$

1.5 soft policy iteration

假设： $|A|<∞；\pi\in\Pi$
经过不断地soft policy evaluation和policy improvement，最终policy会收敛至 $\pi^{\star}$ ,其满足
$Q^{\pi^\star}(s_t,a_t)≥Q^{\pi}(s_t,a_t)；其中\pi\in\Pi$

2. soft actor critic

2.1 soft value function

loss function
$J_V(\psi) = E_{s_t\sim D}[\frac{1}{2}(V_\psi(s_t)-E_{a_t\sim \pi_\phi}[Q_{\theta}(s_t,a_t)-log(\pi_\phi(a_t|s_t)))]^2]$
gradient
$\hat\nabla_\psi J_V(\psi)=\nabla_\psi V_\psi(s_t)\cdot(V_\psi(s_t)-Q_\theta(s_t,a_t)+log(\pi_\phi(a_t|s_t)))$

2.2 soft Q-function

loss function
$J_Q(\theta)=E_{(s_t,a_t)\sim D}[\frac{1}{2}(Q_\theta(s_t,a_t)-\hat Q(s_t,a_t))^2]$
$\hat Q(s_t,a_t)=r(s_t,a_t)+\gamma\cdot E_{s_{t+1}\sim p}[V_{\bar{\psi}} (s_{t+1})]$
gradient
$\hat\nabla_\theta J_Q(\theta)=\nabla_\theta Q_\theta(s_t,a_t)\cdot[Q_\theta(s_t,a_t)-r(s_t,a_t)-\gamma \cdot V_{\bar\psi}(s_{t+1})]$

2.3 policy improvement

loss function
$J_\pi(\phi)=E_{s_t\sim D}[D_{KL}(\pi_\phi(\cdot|s_t)||\frac{exp(Q_\theta(s_t,\cdot))}{Z_\theta(s_t)})]$
reparameterize the policy
$a_t=f_\phi(\epsilon_t;s_t)=f_\phi^\mu(s_t)+\epsilon_t\cdot f_\phi^\sigma(s_t)$
$J_\pi(\phi)=E_{s_t\sim D;\epsilon_t\in N}[log(\pi_\phi(f_\phi(\epsilon_t;s_t)|s_t))-Q_\theta(s_t,f_\phi(\epsilon_t;s_t))]$
gradient
$\nabla_\theta E_{q_\theta(Z)}[f_\theta(Z)]=E_{q_\theta(Z)}[\frac{\partial f_\theta(Z)}{\partial \theta}] + E_{q_\theta(Z)}[\frac{df_\theta(Z)}{dZ}\cdot\frac{dZ}{d\theta}]$
$\hat \nabla_\phi J_\pi(\phi)=\nabla_\phi log(\pi_\phi(a_t;s_t)|s_t))+\nabla_{\phi}f_\phi(\epsilon_t;s_t)\cdot(\nabla_{a_t}log(\pi(a_t|s_t))-\nabla_{a_t} Q_\theta(s_t,a_t))$

3. 算法流程

在这里插入图片描述
By CyrusMay 2022.09.06
世界再大不过你和我
用最小回忆堆成宇宙
————五月天（因为你所以我）————

相关阅读:
解决：el-select，el-cascader或el-date-picker的下拉框不随滚动条滚动。
树莓派4B使用Docker部署SpringBoot项目——（五）使用花生壳进行公网访问
【Mac OS】超好用的几个文字编辑快捷键
我理解的算法 - 53.最大子数组和（超经典多种解法：分治法）
一文详解IP地址编码定义、分类、范围、类型
聊聊Go语言的向前兼容性和toolchain规则
基于深度学习的位置隐私攻击
vue3动态引用本地图片不生效甚是报404
[java]深度剖析面向对象编程
Linux系统中正则表达式的应用

原文地址：https://blog.csdn.net/Cyrus_May/article/details/126714184