强化学习补充笔记（TD算法、Q学习算法、SARSA算法、多步TD目标、经验回放、高估问题、对决网络、噪声网络）

强化学习补充笔记（TD算法、Q学习算法、SARSA算法、多步TD目标、经验回放、高估问题、对决网络、噪声网络）
学习目标：

深入了解马尔科夫决策过程(MDP)，包含TD算法、Q学习算法、SARSA算法、多步TD目标、经验回放、高估问题、对决网络、噪声网络。基础部分见：强化学习马尔科夫决策过程（价值迭代、策略迭代、雅克比迭代、蒙特卡洛）

学习内容：

0.基础符号

奖励：一局游戏中从开始到结束的所有奖励 $R_1,...,R_t,...,R_n.$
折扣率： $\gamma ∈[0,1]$
折扣回报： $U_t=R_t+\gamma \cdot R_{t+1}+\gamma^2\cdot R_{t+2}+...+\gamma^{n-t}\cdot R_{n}$
动作价值函数： $Q_\pi(s_t,a_t)=\mathbb{E}[U_t|S_t=s_t,A_t=a_t]$
最有动作价值函数：已知 $s_t$ 和 $a_t$ ，不论未来采取什么样的策略 $\pi$ ，回报 $U_t$ 都不可能超过 $Q_\star$ $Q_\star(s_t,a_t)=\max_\pi Q_\pi (s_t,a_t), \forall s_t \in \mathcal{S}, a_t \in \mathcal{A}$

1.时间差分（TD）算法

 （1）基础

利用TD训练深度Q网络（DQN），已有四元组 $< s_{t}, a_{t}, r_{t}, s_{t + 1} >$ 。
已知贝尔曼（Bellman）最优方程：
$\underbrace{Q_{\star}\left(s_t, a_t\right)}_{U_t \text { 的期望 }}=\mathbb{E}_{S_{t+1} \sim p\left(\cdot \mid s_t, a_t\right)}[R_t+\gamma \cdot \underbrace{\max _{A \in \mathcal{A}} Q_{\star}\left(S_{t+1}, A\right)}_{U_{t+1} \text { 的期望 }} \mid S_t=s_t, A_t=a_t]$
得到蒙特卡洛近似：
$Q_{\star}\left(s_t, a_t\right) \approx r_t+\gamma \cdot \max _{a \in \mathcal{A}} Q_{\star}\left(s_{t+1}, a\right) .$
带入神经网络参数：
$Q_{\star}\left(s_t, a_t;\boldsymbol{w}\right) \approx r_t+\gamma \cdot \max _{a \in \mathcal{A}} Q_{\star}\left(s_{t+1}, a;\boldsymbol{w}\right) .$

（2）流程

收集训练数据：我们可以用任何策略函数 $\pi$ 去控制智能体与环境交互, 这个 $\pi$ 就叫做行为策略 (Behavior Policy)。比较常用的是 $\epsilon$ -greedy 策略:
$a_t=$
${\begin{cases} {argmax}_{a} Q (s_{t}, a; w), & 以概率 (1 - ϵ); \\ 均匀抽取 A 中的一个动作, & 以概率 ϵ . \end{cases}$
at={argmaxaQ(st,a;w), 均匀抽取 A 中的一个动作, 以概率 (1−ϵ); 以概率 ϵ.
把智能体在一局游戏中的轨迹记作：
$s_1, a_1, r_1, s_2, a_2, r_2, \cdots s_n, a_n, r_n .$
把一条轨迹划分成 $n$ 个 $\left(s_t, a_t, r_t, s_{t+1}\right)$ 这种四元组, 存入数组, 这个数组叫做经验回放数组 (Replay Buffer)。
更新 DQN 参数 $w$ : 随机从经验回放数组中取出一个四元组, 记作 $\left(s_j, a_j, r_j, s_{j+1}\right)$ 。设 DQN 当前的参数为 $\boldsymbol{w}_{\text {now }}$ , 执行下面的步骤对参数做一次更新, 得到新的参数 $\boldsymbol{w}_{\text {new }}$ 。
1. 对DQN做正向传播, 得到 $\mathrm{Q}$ 值:
  $\widehat{q}_j=Q\left(s_j, a_j ; \boldsymbol{w}_{\text {now }}\right) \quad \text { 和 } \quad \widehat{q}_{j+1}=\max _{a \in \mathcal{A}} Q\left(s_{j+1}, a ; \boldsymbol{w}_{\text {now }}\right) .$
2. 计算TD目标和TD误差：
  $\widehat{y}_j=r_j+\gamma \cdot \widehat{q}_{j+1} \text { 和 } \delta_j=\widehat{q}_j-\widehat{y}_j .$
3. 对DQN做反向传播, 得到梯度:
  $\boldsymbol{g}_j=\nabla_{\boldsymbol{w}} Q\left(s_j, a_j ; \boldsymbol{w}_{\mathrm{now}}\right) .$
4. 做梯度下降更新DQN的参数:
  $\boldsymbol{w}_{\text {new }} \leftarrow \boldsymbol{w}_{\text {now }}-\alpha \cdot \delta_j \cdot \boldsymbol{g}_j .$
智能体收集数据、更新DQN参数这两者可以同时进行。可以在智能体每执行一个动作之后, 对 $\boldsymbol{w}$ 做几次更新。也可以在每完成一局游戏之后, 对 $\boldsymbol{w}$ 做几次更新。

2.Q学习算法

 （1）基础

利用Q学习（TD的一种）训练深度Q网络（DQN），已有四元组 $< s_{t}, a_{t}, r_{t}, s_{t + 1} >$ 。
已知贝尔曼（Bellman）最优方程：
$\underbrace{Q_{\star}\left(s_t, a_t\right)}_{U_t \text { 的期望 }}=\mathbb{E}_{S_{t+1} \sim p\left(\cdot \mid s_t, a_t\right)}[R_t+\gamma \cdot \underbrace{\max _{A \in \mathcal{A}} Q_{\star}\left(S_{t+1}, A\right)}_{U_{t+1} \text { 的期望 }} \mid S_t=s_t, A_t=a_t]$
公式左侧等效为：
$\widetilde{Q}{(s_t, a_t)}$
公式右侧蒙特卡洛近似等效为：
$\hat{y_t}\triangleq r_t +\gamma \cdot \max_{a \in \mathcal{A} }\widetilde{Q}{(s_{t+1}, a)}$
更新表格 $\widetilde{Q}$ 中 $s_t,a_t)$ 位置上的元素：
$\widetilde{Q}{(s_t, a_t)} \leftarrow (1-\alpha) \cdot \widetilde{Q}{(s_t, a_t)}+\alpha \cdot \hat{y_t}$

（2）流程

收集训练数据：同TD算法。
$a_t=$
${\begin{cases} {argmax}_{a} \tilde{Q} (s_{t}, a), & 以概率 (1 - ϵ); \\ 均匀抽取 A 中的一个动作, & 以概率 ϵ . \end{cases}$
at={argmaxaQ (st,a),均匀抽取 A 中的一个动作, 以概率 (1−ϵ); 以概率 ϵ.

把一条轨迹划分成 $n$ 个 $\left(s_t, a_t, r_t, s_{t+1}\right)$ 这种四元组, 存入数组。
经验回放更新表格 $\tilde{Q}$ : 随机从经验回放数组中抽取一个四元组, 记作 $\left(s_j, a_j, r_j, s_{j+1}\right)$ 。
1. 把当前表格 $\widetilde{Q}_{\text {now }}$ 中第 $\left(s_j, a_j\right)$ 位置上的元素记作:
  $\widehat{q}_j=\tilde{Q}_{\text {now }}\left(s_j, a_j\right) .$
2. 查看表格 $\widetilde{Q}_{\text {now }}$ 的第 $s_{j+1}$ 行, 把该行的最大值记作:
  $\widehat{q}_{j+1}=\max _a \widetilde{Q}_{\text {now }}\left(s_{j+1}, a\right) .$
3. 计算TD目标和TD误差:
  $\widehat{y}_j=r_j+\gamma \cdot \widehat{q}_{j+1}, \quad \delta_j=\widehat{q}_j-\widehat{y}_j .$
4. 更新表格中 $\left(s_j, a_j\right)$ 位置上的元素，得到更新后的表格:
  $\tilde{Q}_{\text {new }}\left(s_j, a_j\right) \leftarrow \tilde{Q}_{\text {now }}\left(s_j, a_j\right)-\alpha \cdot \delta_j .$
收集经验与更新表格 $\widetilde{Q}$ 可以同时进行。每当智能体执行一次动作, 我们可以用经验回放对 $\widetilde{Q}$ 做几次更新。也可以当完成一局游戏, 对 $\widetilde{Q}$ 做几次更新。

3.SARSA算法

 （1）基础

已知贝尔曼方程：
$Q_\pi\left(s_t, a_t\right)=\mathbb{E}_{S_{t+1}, A_{t+1}}\left[R_t+\gamma \cdot Q_\pi\left(S_{t+1}, A_{t+1}\right) \mid S_t=s_t, A_t=a_t\right]$
左侧等效为： $q\left(s_t, a_t\right)$

右侧根据蒙特卡洛近似为： $\widehat{y}_t \triangleq r_t+\gamma \cdot q\left(s_{t+1}, \tilde{a}_{t+1}\right)$
更新表格 $q$ 中 $s_t,a_t)$ 位置上的元素：
$q\left(s_t, a_t\right) \leftarrow(1-\alpha) \cdot q\left(s_t, a_t\right)+\alpha \cdot \widehat{y}_t$

（2）流程

五元组： $\left(s_t, a_t, r_t, s_{t+1}, \tilde{a}_{t+1}\right)$ 。SARSA算法学到的 $q$ 依赖于策略 $\pi$ , 这是因为五元组中的 $\tilde{a}_{t+1}$ 是根据 $\pi\left(\cdot \mid s_{t+1}\right)$ 抽样得到的。
训练流程：设当前表格为 $q_{\text{now }}$ , 当前策略为 $\pi_{\text {now }}$ 。每一轮更新表格中的一个元素，把更新之后的表格记作 $q_{\text {new}}$ 。
1. 观测到当前状态 $s_t$ , 根据当前策略做抽样: $a_t \sim \pi_{\text {now }}\left(\cdot \mid s_t\right)$ 。
2. 把表格 $q_{\text {now }}$ 中第 $\left(s_t, a_t\right)$ 位置上的元素记作:
  $\widehat{q}_t=q_{\text {now }}\left(s_t, a_t\right) .$
3. 智能体执行动作 $a_t$ 之后, 观测到奖励 $r_t$ 和新的状态 $s_{t+1}$ 。
4. 根据当前策略做抽样: $\tilde{a}_{t+1} \sim \pi_{\text {now }}\left(\cdot \mid s_{t+1}\right)$ 。注意, $\tilde{a}_{t+1}$ 只是假想的动作，智能体不予执行。
5. 把表格 $q_{\text {now }}$ 中第 $\left(s_{t+1}, \tilde{a}_{t+1}\right)$ 位置上的元素记作:
  $\widehat{q}_{t+1}=q_{\text {now }}\left(s_{t+1}, \tilde{a}_{t+1}\right) .$
6. 计算 TD 目标和 TD 误差:
  $\widehat{y}_t=r_t+\gamma \cdot \widehat{q}_{t+1}, \quad \delta_t=\widehat{q}_t-\widehat{y}_t .$
7. 更新表格中 $\left(s_t, a_t\right)$ 位置上的元素:
  $q_{\text {new }}\left(s_t, a_t\right) \leftarrow q_{\text {now }}\left(s_t, a_t\right)-\alpha \cdot \delta_t .$
8. 用某种算法更新策略函数。该算法与 SARSA算法无关。
（3）对比

$\begin{array}{|c|c|c|c|} \hline \mathrm{Q} \text { 学习 } & \text { 近似 } Q_{\star} & \text { 异策略 } & \begin{array}{c} \text { 可以使用 } \\ \text { 经验回放 } \end{array}$
\\ \hline \text { SARSA } & \text { 近似 } Q_\pi & \text { 同策略 } &
$\begin{array}{l} 不能使用 \\ 经验回放 \end{array}$
\\ \hline \end{array} Q 学习 SARSA 近似 Q⋆ 近似 Qπ 异策略同策略可以使用经验回放不能使用经验回放

至于神经网络形式的SARSA：在状态空间 $\mathcal{S}$ 为无限集的情况下适用。只需将上述流程中的q函数增加一个神经网络的参数 $w$ ，同时第七步更改为反向传播和梯度下降的求解过程，此处不再赘述。

4.多步TD目标

 （1）基础

此时回报可以写作如下形式：
$U_t=\left(\sum_{i=0}^{m-1} \gamma^i R_{t+i}\right)+\gamma^m U_{t+m}$
由此可得动作值函数为：
$\underbrace{Q_\pi\left(s_t, a_t\right)}_{U_t \text { 的期望 }}=\mathbb{E}[\left(\sum_{i=0}^{m-1} \gamma^i R_{t+i}\right)+\gamma^m \cdot \underbrace{Q_\pi\left(S_{t+m}, A_{t+m}\right)}_{U_{t+m} \text { 的期望 }} \mid S_t=s_t, A_t=a_t]$
左侧等效为：
$\widehat{q_t}=q\left(s_t, a_t ; \boldsymbol{w}\right)$
右侧根据蒙特卡洛近似等效为：
$\widehat{y}_t=\left(\sum_{i=0}^{m-1} \gamma^i r_{t+i}\right)+\gamma^m \cdot q\left(s_{t+m}, a_{t+m} ; \boldsymbol{w}\right)$
损失函数设置为：
$L(\boldsymbol{w}) \triangleq \frac{1}{2}\left[q\left(s_t, a_t ; \boldsymbol{w}\right)-\widehat{y}_t\right]^2$
梯度下降为：
$\boldsymbol{w} \leftarrow \boldsymbol{w}-\alpha \cdot\left(\widehat{q}_t-\widehat{y}_t\right) \cdot \nabla_{\boldsymbol{w}} q\left(s_t, a_t ; \boldsymbol{w}\right)$
流程与SARAS同理，略。

5.经验回放

 （1）基础

定义：把智能体与环境交互的记录（即经验）储存到一个数组，事后反复利用这些经验训练智能体。这个数组被称为经验回放数组 (Replay Buffer)

优点：打破序列相关性。

局限：经验回放数组中的经验通常是过时的行为策略收集的，而我们真正想要学的目标策略不同于过时的行为策略。

（2）扩展

优先经验回放 (Prioritized Experience Replay) 是一种特殊的经验回放方法，它比普通的经验回放效果更好：既能让收敛更快，也能让收敛时的平均回报更高。优先经验回放给每个四元组一个权重，然后根据权重做非均匀随机抽样。

6.高估问题

 （1）基础

Q 学习算法有一个缺陷：用 Q 学习训练出的 DQN 会高估真实的价值，而且高估通常是非均匀的。来源有两个：（1）自举导致的误差积累。（2）最大化导致高估。

（2）目标网络（缓和自举高估）

目标网络记作：
$Q\left(s, a ; \boldsymbol{w}^{-}\right)$
其神经网络结构与DQN完全相同，但 $w^-$ 与 $w$ 的值并不完全相同。
1. 对DQN做正向传播，得到:
  $\widehat{q}_j=Q\left(s_j, a_j ; \boldsymbol{w}_{\text {now }}\right) .$
2. 对目标网络做正向传播，得到
  $\hat{q}_{j+1}^{-}=\max _{a \in \mathcal{A}} Q\left(s_{j+1}, a ; \boldsymbol{w}_{\mathrm{now}}^{-}\right) .$
3. 计算TD目标和TD误差：
  $\widehat{y}_j^{-}=r_j+\gamma \cdot \widehat{q}_{j+1} \quad \text { 和 } \quad \delta_j=\widehat{q}_j-\widehat{y}_j .$
4. 对DQN做反向传播，得到梯度 $\nabla_{\boldsymbol{w}} Q\left(s_j, a_j ; \boldsymbol{w}_{\text {now }}\right)$ 。
5. 做梯度下降更新DQN的参数：
  $\boldsymbol{w}_{\text {new }} \leftarrow \boldsymbol{w}_{\text {now }}-\alpha \cdot \delta_j \cdot \nabla_{\boldsymbol{w}} Q\left(s_j, a_j ; \boldsymbol{w}_{\text {now }}\right) .$
6. 设 $\tau \in(0,1)$ 是需要手动调的超参数。做加权平均更新目标网络的参数：
  $\boldsymbol{w}_{\text {new }}^{-} \leftarrow \tau \cdot \boldsymbol{w}_{\text {new }}+(1-\tau) \cdot \boldsymbol{w}_{\text {now }}^{-}$
（3）双Q学习法（解决最大化高估）

此处对比Q学习、目标网络、双Q学习法的区别，流程与上文（2）中类似：

Q学习算法：
选择：即基于状态 $s_{j+1}$ , 选出一个动作使得 DQN 的输出最大化:
$a^{\star}=\underset{a \in \mathcal{A}}{\operatorname{argmax}} Q\left(s_{j+1}, a ; \boldsymbol{w}\right) .$
求值：即计算 $\left(s_{j+1}, a^{\star}\right)$ 的价值, 从而算出 TD 目标:
$\widehat{y}_j=r_j+Q\left(s_{j+1}, a^{\star} ; \boldsymbol{w}\right) .$
目标网络：
选择: $\quad a^{-}=\underset{a \in \mathcal{A}}{\operatorname{argmax}} Q\left(s_{j+1}, a ; \boldsymbol{w}^{-}\right)$ ,
求值: $\quad \widehat{y_t^{-}}=r_t+Q\left(s_{j+1}, a^{-} ; \boldsymbol{w}^{-}\right)$ .
双Q学习，第一步的选择用DQN, 第二步的求值用目标网络：
选择: $\quad a^{\star}=\underset{a \in \mathcal{A}}{\operatorname{argmax}} Q\left(s_{j+1}, a ; \boldsymbol{w}\right)$ ,
求值: $\quad \widetilde{y}_t=r_t+Q\left(s_{j+1}, a^{\star} ; \boldsymbol{w}^{-}\right)$ .

对比

$\begin{array}{lllll} 选择 & 求值 & 自举造成偏差 & 最大化造成偏差 \\ Q学习 & DQN & DQN & 严重 & 严重 \\ Q学习+目标网络 & 目标网络 & 目标网络 & 不严重 & 严重 \\ 双Q学习 & DQN & 目标网络 & 不严重 & 不严重 \end{array}$
Q学习 Q学习+目标网络双Q学习选择 DQN 目标网络 DQN 求值 DQN 目标网络目标网络自举造成偏差严重不严重不严重最大化造成偏差严重严重不严重

7.对决网络

 （1）基础

 （2）流程

 8.噪声网络

 （1）基础

 （2）流程
相关阅读:
C#使用企业微信群机器人推送生产数据
 汇集YOLO系列经典和前沿算法，实现高精度实时检测！
数据预处理大全
 ESP32-BLE基础知识
 靠这套pytest接口自动化测试框架，击败99%的人
 【畅所欲言】AI诈骗：防范与应对策略
 正则系列之手机号码正则
 vscode 软件安装插件----详细-setting.json
C++课程总复习
 【Proteus仿真】【STM32单片机】电蒸锅温度控制系统
原文地址：https://blog.csdn.net/lbwnbdedede/article/details/128008385

强化学习 补充笔记（TD算法、Q学习算法、SARSA算法、多步TD目标、经验回放、高估问题、对决网络、噪声网络）

学习目标：

学习内容：

0.基础符号

1.时间差分（TD）算法

（1）基础

（2）流程

2.Q学习算法

（1）基础

（2）流程

3.SARSA算法

（1）基础

（2）流程

（3）对比

4.多步TD目标

（1）基础

5.经验回放

（1）基础

（2）扩展

6.高估问题

（1）基础

（2）目标网络（缓和自举高估）

（3）双Q学习法（解决最大化高估）

7.对决网络

（1）基础

（2）流程

8.噪声网络

（1）基础

（2）流程