深入理解强化学习——强化学习的局限性与适用范围

强化学习的复杂性

首先要注意的是，强化学习中的观察结果取决于智能体选择的动作，某种程度上可以说是动作导致的结果。如果智能体选择了无用的动作，观察结果不会告诉你做错了什么或如何选择动作才能改善结果，智能体只会得到负面的反馈。如果智能体很固执并且不断犯错，那么这些观察结果会给出一个错误的印象，即没法获取更大的奖励了，但这种印象很可能是完全错误的。

用机器学习的术语来说，就是有非独立同分布（Independent and Identically Distributed，I.I.D）数据，而独立同分布是大多数监督学习方法的前提。第二个复杂的地方是智能体不仅需要利用它学到的知识，还要积极地探索环境，因为选择不同的动作很可能会明显地改善结果。但问题是太多的探索会严重地降低奖励，更不用说智能体实际上会忘记它之前学的知识了，所以需要找到这两种行为之间的平衡点。这种探索与利用的两难问题是强化学习中公开的基本问题之一。人们一直在面对这种选择——应该去一个知名餐厅就餐，还是去新开的新奇餐厅就餐？应该多久换一次工作？应该接触一下新领域还是继续留在现在的领域？这些问题尚无统一的答案。

第三个复杂的地方在于选择动作后奖励可能会严重延迟。例如，在国际象棋中，游戏中途的一次强力落子就可以改变平衡。在学习过程中，我们需要发现这种因果关系，而在时间的流逝和不断选择的动作中辨别这种因果关系是很困难的。然而，尽管存在这么多障碍和复杂性，强化学习在近年来已经取得了巨大的进步，并且在学术研究和实际应用领域中变得越来越活跃。

局限性和适用范围

强化学习十分依赖“状态”这个概念，它既作为策略和价值函数的输人，又同时作为模型的输人与输出。一般，我们可以把状态看作传递给智能体的一种信号，这种信号告诉智能体“当前环境如何"。我们使用的通过马尔可夫决策过程框架给出的状态的正式定义将在《深入理解强化学习》系列后面的文章中介绍。一般来说，我们鼓励读者顺着非正式的定义思考状态的含义，把它理解为当前智能体可知的环境信息。实际上，我们认为状态产生自一些预处理系统，这些系统从逻辑上说是智能体周边环境的一部分。

《深入理解强化学习》系列很多文章中讨论的大多数强化学习方法建立在对价值函数的估计上。但是这并不是解决强化学习问题的必由之路。举个例子，一些优化方法，如遗传算法、遗传规划、模拟退火算法以及其他一些方法，都可以用来解决强化学习问题，而不用显式地计算价值函数。这些方法采取大量静态策略，每个策略在扩展过的较长时间内与环境的一个独立实例进行交互。这些方法选择获取了最多收益的策略及其变种来产生下一代的策略，然后继续循环更新。我们称其为进化方法，因为这类方法与生物进化的过程十分类似，即使这类方法在单个个体的生命周期中不进行学习。如果策略空间充分小，或者可以很好地结构化以找到好的策略，或者我们有充分的时间来搜索，那么进化方法是有效的。另外，进化方法在那些智能体不能精确感知环境状态的问题上具有优势。

参考文献：
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习（第2版）[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践（原书第2版）[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL：强化学习教程 [M]. 人民邮电出版社, 2022

相关阅读:
vue3开发必备核心要点
字节对齐（C++，C#）
SpringBoot--参数校验--@Validated--使用/实例
第一章 - Windows安装VMware Workstation Pro
SpringCloud学习笔记（六）OpenFeign 服务接口调用
什么是面向对象
Rust 的 into_owned() 方法
几种常见采样方法及原理
手机远程控制plc有什么优势
@Async注解失效及原理

原文地址：https://blog.csdn.net/hy592070616/article/details/133976991