深度强化学习应用实践技巧

深度强化学习应用实践技巧
文章目录
参考资料
- 《深度强化学习》书籍第18章
本篇博客总结整理自《深度强化学习》书籍第18章。

1. 如何应用深度强化学习
- 在深度强化学习中，由于强化学习的基本过程需要智能体从与环境交互的动态过程中的奖励信号而不是标签中学习，这是与有监督学习的情况不同的。
- 强化学习中的奖励函数可能只包含不完整或者局部的信息，而智能体使用自举（ Bootstrapping）学习方法时往往在追逐一个变化的目标。
- 此外，深度强化学习中经常用到不止一个深度神经网络，尤其是在那些较为高等或者最近提出的方法中。这都使得深度强化学习算法可能表现得不稳定且对超参数敏感。
- 强化学习可以用于连续决策制定问题，而这类问题通常可以用马尔可夫（ Markov）过程来描述或近似。一个有标签数据的预测任务通常不需要强化学习算法，而监督学习方法可能更直接和有效。
- 强化学习任务通常包括至少两个关键要素：
  - 环境，用来提供动态过程和奖励信号；
  - 智能体，由一个策略控制，而这个策略是通过强化学习训练得到的。
应用深度强化学习算法有以下几个阶段。

1.1 简单测试阶段
- 需要使用对其正确性和准确性有高置信度的模型，包括强化学习算法。
- 如果是一个新的任务，用它来探索环境（甚至使用一个随机策略）或者逐步验证将在最终模型上做的延伸，而不是直接使用一个复杂的模型。
- 需要快速进行实验来检测环境和模型基本设置中可能的问题，或者至少让你自己熟悉这个要解决的任务，这会给你在之后的过程中提供一些启发，有时也会暴露出一些需要考虑的极端情况。
1.2 快速配置阶段
- 应该对模型设置做快速测试，来评估其成功的可能性。如果有错误，尽可能多地可视化学习过程，并在你无法直接从数字上得到潜在关系的时候使用一些统计变量（方差、均值、平均差值、极大极小值等）。
1.3 部署训练阶段
- 仔细确认过模型的正确性后，就可以开始大规模部署训练了。
- 由于深度强化学习往往需要较大量的样本去训练较长时间，建议使用并行训练方式、使用云服务器（如果你自己没有服务器的话）等，来加速对最终模型的大规模训练。
2. 实现阶段
- 从头实现一些基本的强化学习算法。
- 适当地实现论文细节。当你实现这些方法的时候，不要过拟合到论文细节上，而是去理解论文作者为何在这些特定情形下选择使用这些技巧。
- 如果解决一个具体任务，先探索一下环境。
  
  检查一下环境的细节，包括观察量和动作的性质，如维度、值域、连续或离散值类型等。如果环境观察量的值在一个很大的有效范围内或者是未知范围的，那么应该把它的值归一化。比如，如果使用 Tanh 或者Sigmoid 作为激活函数，较大的输入值将可能使第一个隐藏层的节点饱和，训练开始后将导致较小的梯度值和较慢的学习速度。
- 给每一个网络选取一个合适的输出激活函数。
  
  应当根据环境来对动作网络选择一个合适的输出激活函数。比如，常用的像 ReLU 可能从计算时间和收敛表现上都对隐藏层来说可以很好地工作，但是它对有负值的动作输出范围来说可能是不合适的。最好将策略输出值的范围跟环境的动作值域匹配起来，比如对于动作值域 (−1, 1) 在输出层使用 Tanh 激活函数。
- 从简单例子开始逐渐增加复杂度。
- =从密集奖励函数开始==。
  
  奖励函数的设计可以影响学习过程中优化问题的凸性，因此应当从一个平滑的密集奖励函数开始尝试。
- 选择合适的网络结构。
  - 对于深度强化学习而言，神经网络深度通常不会太深，超过 5 层的神经网络在强化学习应用中不是特别常见。这是由于强化学习算法本身的计算复杂度造成的。
  - 在监督学习中，如果网络相比于数据而言足够大，它可以过拟合到数据集上，而在深度强化学习中，它可能只是缓慢地收敛甚至是发散，这是因为探索和利用之间的强关联作用。
  - 网络大小的选择经常是依据环境状态空间和动作空间而定的。一个有几十个状态动作组合的离散环境可能可以用一个表格方法，或者一个单层或两层的神经网络解决。
  - 对于网络的结构而言，文献中很常见的有多层感知机（ Multi-Layer Perceptrons， MLPs）、卷积神经网络（ CNNs）和循环神经网络（ RNNs）。
  - 一个低维的矢量输入可以用一个多层感知机处理，而基于视觉的策略经常需要一个卷积神经网络主干来提前提取信息，要么与强化学习算法一起训练，要么用其他计算机视觉的方法进行预训练。也有其他情况，比如将低维的矢量输入和高维的图像输入一起使用，实践中通常先采用从高维输入中提取特征的主干再与其余低维输入并联的方法。循环神经网络可以用于不是完全可观测的环境或者非马尔可夫过程，最优的动作选择不仅依赖当前状态，而且依赖之前状态。
- 熟悉你所用的强化学习算法的性质。
  - 举例来说，像 PPO 或 TRPO 类的基于信赖域的方法可能需要较大的batch size来保证安全的策略进步。对于这些信赖域方法，我们通常期待策略表现稳定的进步，而非在学习曲线上某些位置突然有较大下降。 TRPO 等信赖域方法需要用一个较大batch size的原因是，它需要用共轭梯度来近似 Fisher 信息矩阵，这是基于当前采样到的批量样本计算的。如果batch size太小或者是有偏差的，可能对这个近似造成问题，并且导致对 Fisher 信息矩阵（或逆 Hessian 乘积）的近似不准确而使学习表现下降。因此，实践中，算法 TRPO 和 PPO 中的batch size需要被增大，直到智能体有稳定进步的学习表现为止。TRPO 有时也无法较好地扩展到大规模的网络或较深的卷积神经网络和循环神经网络上。
  - DDPG 算法则通常被认为对超参数敏感，尽管它被证明对许多连续动作空间的任务很有效。当把它应用到大规模或现实任务上时，这个敏感性会更加显著。比如，尽管在一个简单的模拟测试环境中通过彻底的超参数搜索可以最终找到一个最优的表现效果，但是在现实世界中的学习过程由于时间和资源上的限制可能不允许这种超参数搜索，因此 DDPG 相比与其他 TRPO 或 SAC 算法可能不会有很好的效果。另一方面，尽管 DDPG 算法起初是设计用来解决有连续值动作的任务，这并不意味着它不能在离散值动作的情况下工作。如果尝试将它应用到有离散值动作的任务上，那么需要使用一些额外的技巧，比如用一个有较大 t 值的 Sigmoid(tx) 输出激活函数并且将其修剪成二值化的输出，还得保证这个截断误差比较小，或者你可以直接使用 Gumbel-Softmax 技巧来更改确定性输出为一个类别的输出分布。其他算法也可以有相似处理。
- 归一化值处理。
  - 通过缩放而不是改变均值来归一化奖励函数值，并且用同样的方式标准化值函数的预测目标值。
  - 奖励函数的缩放基于训练中采样的批样本。只做值缩放（即除以标准差）而不做均值平移（为得到零均值而减去统计均值）的原因是，均值平移可能会影响到智能体的存活意愿。这实际上与整个奖励函数的正负号有关，而且这个结论只适用于你使用“ Done”信号的情况。其实，如果事先没有用“ Done”信号来终止片段，那么可以使用均值平移。
  - 考虑以下一种情况，如果智能体经历了一个片段，而“ Done=True”信号在最大片段长度以内发生，那么假如我们认为智能体仍旧存活，则这个“ Done”信号之后的奖励值实际为 0。如果这些为 0 的奖励值总体上比之前的奖励值高（即之前的奖励值基本是负数），那么智能体会倾向于尽可能早地结束片段，以最大化整个片段内的奖励。相反，如果之前的奖励函数基本是正值，智能体会选择“活”得更久一些。如果我们对奖励值采取均值平移方式，它会打破以上情形中智能体的存活意愿，从而使得智能体即使在奖励值基本为正时不会选择存活得更久，而这会影响训练中的表现。
  - 归一化值函数的目标也是相似的情况。举例来说，一些基于 DQN 的算法的平均 Q 值会在学习过程中意外地不断增大，而这是由最大化优化公式中对 Q 值的过估计造成的。归一化目标 Q 值可以缓解这个问题，或者使用其他的技巧如 Double Q-Learning。
- 注意奖励函数和最终目标之间的分歧。
  - 强化学习经常被用于一个有最终目标的具体任务，而通常需要人为设计一个与最终目标一致的奖励函数来便于智能体学习。
  - 在这个意义上说，奖励函数是目标的一种量化形式，这也意味着它们可能是两个不同的东西。在某些情况下它们之间会有分歧。因为一个强化学习智能体能够过拟合到你为任务所设置的奖励函数上，而你可能发现训练最终策略在达成最终目标上与你所期望的不同。这其中一个最可能的原因是奖励函数和最终目标之间的分歧。
  - 在多数情况下，奖励函数倾向于最终的任务目标是容易的，但是设计一个奖励函数与最终目标在所有极端情况下都始终一致，是不平庸的。你应该做的是尽可能减少这种分歧，来保证你设计的奖励函数能够平滑地帮助智能体达到最终真实目标。
- 非马尔可夫情况。
  - 非马尔可夫决策过程和部分可观测马尔可夫过程（ POMDP）的差异有时是细微的。比如，如果一个在Atari Pong游戏中状态被定义为同时包含小球的位置和速度信息（假设小球运动没有加速度），而观察量只有位置，那么这个环境是 POMDP 而不是非马尔可夫过程。然而， Pong 游戏的状态通常被认为是每一个时间步静态帧，那么当前状态只包含小球的位置而没有智能体能够做出最优动作选择的所有信息，比如，小球速度和小球运动方向也会影响最优动作。所以这种情况下它是一个非马尔可夫环境。一种提供速度和运动方向信息的方法是使用历史状态，而这违背了马尔可夫过程下的处理方法。
  - 在DQN原文中，使用堆叠帧可以以一种近似的 MDP 来解决 Pong 任务。如果我们把所有的堆叠帧看作一个单一状态，并且假设堆叠帧可以包含做出最优动作选择的所有信息，那么这个任务实际上仍旧遵从马尔可夫过程假设。
  - 循环神经网络或更高级的 LSTM方法也可以用于以历史记忆进行决策的情况，来解决非马尔可夫过程的问题。
3. 训练和调试阶段
- 初始化很重要。
  - 深度强化学习方法通常要么以在线策略（ On-Policy）方式用每个片段内的样本更新策略，要么使用离线策略（ Off-Policy）中动态的回放缓存（ Replay Buffer），这个缓存包含随时间变化的多样性样本。
  - 这使得深度强化学习不同于监督学习，监督学习是从一个固定的数据集中学习，因而学习样本的顺序不是特别重要。然而，在深度强化学习中，策略的初始化可以影响随后可能的探索范围，并决定存入缓存的后续样本或直接用于更新的样本，因此它会影响整个学习表现。
  - 从一个随机策略开始会导致较大的概率有更多样的样本，这对于训练开始阶段是很好的。但随着策略的收敛和进步，探索的范围逐渐收窄，而近趋于当前策略所生成的轨迹。对于权重参数的初始化而言，总体上来说使用较高级的方法如 Xavier 初始化或正交初始化 会较好，这样可以避免梯度消失或梯度爆炸，并且对多数深度学习情况都有较稳定的学习表现。
- 使用多个随机种子并计算平均值来减少随机性。
  - 固定随机种子可以用来再现学习过程。使用随机种子并得到学习曲线的平均值，可以减少实验对比中深度强化学习随机性造成的得到错误结论的可能性。通常使用越多的随机种子，实验结果就越可靠，但同时也增加了实验耗时。根据经验，我们采用不同的随机种子进行 3 到 5 次试验便可以得到一个相对可信的结果，但是越多越好。
- 平衡 CPU 和 GPU 计算资源以加速训练。
  - 这个提示实际上是关于找到和解决训练速度上的瓶颈问题。
  - 在有限的计算机上更好地使用计算资源，对于强化学习要比监督学习复杂。
  - 在监督学习中， CPU 经常用于数据读写和预处理，而 GPU 用于进行前向推理和反向传播过程。
  - 然而，由于强化学习中推理过程总是涉及与环境的交互，计算梯度的设备需要与处理环境交互的设备匹配计算能力，否则会是对探索或利用的浪费。
  - 在强化学习中， CPU 经常被用于与环境交互采样的过程，而这对某些复杂的模拟系统可能涉及大量运算。 GPU 被用来进行前向推理和反向传播来更新网络。在部署大规模训练的过程中，应当检查 CPU 和GPU 计算资源的利用率，避免线程或进程沉睡。
  - 对于 GPU 过度利用的情况，可以采用更多的采样线程或进程来与环境交互。
  - 对于 CPU 过度利用的情况，你可以减少分布式采样线程的数量，或者增加分布式更新线程的数量，增大算法内更新迭代次数，对于离线更新增大批尺寸等。
- 可视化。
  - 如果不能直接从数值中看清潜在关系，应当尽可能对其可视化。比如，有时由于强化学习过程不稳定的特性，奖励函数可能有很大抖动，这种情况下可能需要画出奖励值的滑动平均曲线来了解智能体在训练中是否有进步。
- 平滑学习曲线。
  - 强化学习的过程可能非常不稳定。直接从未经处理的学习曲线中得出结论经常是不可靠的，我们通常要用滑动平均、卷积核等来平滑学习曲线，并且选用一个合适的窗口长度。
- 质疑你的算法实现。
  - 刚完成代码实现以后，它不会工作，是很常见的，而这时，耐心地调试代码就很重要。
  - 算法实现的正确性总是要先于微调一个相对好的结果，因此，应当在保证实现正确性的前提下再考虑微调超参数。
相关阅读:
[OpenCV实战]52 在OpenCV中使用颜色直方图
 CronExpression
数据库 1.关系
 初识微服务技术栈
 第三章数据结构与算法——栈和
 如何提高加速运行Mac电脑系统缓慢的5种方法教程
 Vue面试题以及解答（持续扩展中.....）
聊聊工作中，如何提升自己的编程能力？
动态规划--01背包问题~~~ 思路解析（二维 & 一维 & 滚动数组）
Tomcat（HTTP服务器）下载以及认识
原文地址：https://blog.csdn.net/weixin_42301220/article/details/126003752

文章目录

参考资料

1. 如何应用深度强化学习

1.1 简单测试阶段

1.2 快速配置阶段

1.3 部署训练阶段

2. 实现阶段

3. 训练和调试阶段