• 深入理解强化学习——强化学习的历史:近代强化学习的发展


    分类目录:《深入理解强化学习》总目录
    相关文章:
    · 强化学习的历史:最优控制
    · 强化学习的历史:试错学习
    · 强化学习的历史:试错学习的发展
    · 强化学习的历史:K臂赌博机、统计学习理论和自适应系统
    · 强化学习的历史:时序差分学习


    在《深入理解强化学习——强化学习的历史》前面的文章中我们讨论了最优控制和试错学习学习的思想,接下来,我们将讨论一些在20世纪60年代和70年代,在试错学习计算和理论研究被相对忽视的时候,出现的一些例外情况。其中的一个例外是新西兰研究人员J.hn Andreae的工作。Andreae开发了一个叫作STeLLA的系统,它通过与环境的互动中的试错来学习。这个系统包括了关于环境的内部模型和后来开发的一个用来处理隐藏状态问题的“内心独白"模块。Andreae后来的工作虽然更强调从老师那儿学习,但仍然包括了很多反复试错,并且系统的目标之一就是产生创造性的新事件。这个工作的一个特性被称为“回流过程",在Andreae中有详细描述,其提供了一个类似于我们前面提及的反向回溯更新的功劳分配机制。不幸的是,他的开创性研究并不为人所知,也没有对后来的强化学习研究产生重大影响。

    比较有影响力的是Donal Michie的工作。在1961年和1963年,他描述了一个叫MENACE(Matchbox EducabIe Naughts and Crosses Engine)的简单试错学习系统,用来学习如何玩井字棋游戏。这个系统由对应于每个井字棋位置的火柴盒构成,每个火柴盒内含有许多彩色珠子,每一种不同颜色代表一种可能的移动方式。通过从当前游戏位置的火柴盒里随机拿一个珠子,就可以确定MENACE的移动。当游戏结束时,我们会往曾经使用过的盒子里增加珠子或减少珠子,以此来强化或惩罚MENACE的决策。Michie和Chambers描述了另一种叫GLEE(Game LearningExpectimaxing Engine)的井字棋强化学习机和一个叫BOXES的强化学习控制器。他们采用BOXES使得一根杆子可以在一个可移动的小车上保持平衡,这一系统就是在失败信号的基础上工作的一一一当杆子倒下或车到达终点时,会有失败信号发出从而帮助系统学习。这项任务是根据Widrow和Smith早期的工作改编而来的,他们采用有监督学习的方法,假设老师的指导己经能保持杆子平衡。Michie和Chambers版的杆子平衡实验是在不具备完全知识的条件下强化学习最出色的早期例子之一。包括我们自己的一些研究在内,它影响了许多后来强化学习的工作。Michie一直在不断强调试错学习作为人工智能领域基本部分的重要性。

    Widrow、Gupta和Maitra修改了Widrow和Hoff的最小均方误差(Least-Mean-Square,LMS)算法,以建立一种强化学习规则,其可以从成功和失败信号中而不是从训练例子中学习。他们称这种学习形式为“选择性引导适应”,并将其描述为“向评论家学习",而不是“向老师学习"。他们分析了这条规则,并展示了如何学会玩二十一点纸牌游戏。这是Widrow对强化学习研究的一次单独的尝试,他本人对有监督学习的贡献在学界更有影响力。我们使用的“评判器"(critic)这个术语就是从Widrow、Gupta和Maitra的论文中衍生出来的。Buchanan、Mitchell、Smith和Johnson在机器学习文章中独立使用了“评判器"这个术语,但对他们来说,评判器不止可以做性能评估,它是一个有更多用处的专家系统。

    参考文献:
    [1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
    [2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
    [3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
    [4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022

  • 相关阅读:
    最大优先队列的实现(思路分析) [数据结构与算法]
    【Java】Jsoup格式化html问题(文本空格折叠等)解决方法
    MYSQL的高阶语句
    7个教师常备资源网站,质量高还免费,请低调使用
    Spring基础(三):IOC底层原理
    MariaDB简介
    linux:git
    2057. 值相等的最小索引
    Linux 中断
    xlnet+bilstm实现菜品正负评价分类
  • 原文地址:https://blog.csdn.net/hy592070616/article/details/134063004