• ▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch0 一张图讲完强化学习原理


    PPT 截取有用信息。 课程网站做习题。总体 MOOC 过一遍

    • 1、视频 + 学堂在线 习题
    • 2、相应章节 过电子书 [2023.8 版本] 复习
    • 3、总体 MOOC 过一遍

    学堂在线 课程页面链接
    中国大学MOOC 课程页面链接
    B 站 视频链接

    PPT和书籍下载网址: 【github链接】
    onedrive链接:
    【书】
    【课程PPT】

    这种颜色表示 是 查看 PDF 电子书 后补充的笔记


    如何学习强化学习?
    1、原理 [算法背后的原理] 【本课程】
    2、实践和编程

    为何要了解算法背后的原理?

    • 了解算法的原理是什么?它在做什么样的事情?有什么优势?有什么劣势?创新可以从哪些方面入手?

    给目标分配合适的时间

    不存在 速成 !!! ——> 充裕的时间,心态平和,稳扎稳打。

    数学性强,系统性强。

    预计 40 小时 ——> 可阅读论文

    目标:不仅能知道 算法的过程,还能理解为什么要设计这个算法,为什么它能有效地工作。

    在这里插入图片描述

    第 1 章 基本概念

    在这里插入图片描述

    第 2 章 状态值 和 贝尔曼公式

    在这里插入图片描述

    状态值: 用于评价一个策略的好坏。
    贝尔曼公式:描述了 所有状态 和 状态值 之间的关系。

    策略评价:求解贝尔曼公式进而得到一个策略所对应的状态值

    ——————
    状态值: agent 在遵循给定策略的情况下从某个状态出发时所能获得的预期收益。状态值越大,对应的策略越好。

    • 状态值可以用来评估策略是好还是坏。

    Bellman 方程描述了所有状态值之间的关系。
    通过求解 Bellman 方程,可以得到状态值。这样的过程被称为策略评估

    ——————

    第 3 章 最优策略 [ 贝尔曼最优公式 ]

    在这里插入图片描述

    强化学习的终极目标: 求解最优策略
    最优策略:能获得最大的状态值

    第 4 章 值迭代 和 策略迭代

    在这里插入图片描述

    值迭代、策略迭代、截断策略迭代

    • 前两个是第三个的特例

    贝尔曼最优公式 值迭代

    有一个不太好的策略——> 估计策略的值 【策略评价】,根据值改进策略——> 估计 新的策略 的值 , 改进策略——>…

    动态规划 需要模型

    第 5 章 model-free 的强化学习 算法

    在这里插入图片描述

    学习 随机变量 的期望值

    数据 or 模型

    强化学习中的“数据”是 指智能体与环境交互时产生的经验样本。

    MC Basic: 策略迭代 中 依赖模型的部分 去掉,替换成依赖数据的

    • 实际不可用,效率很低

    ——————
    要研究 MC 算法 (第 5 章),首先要了解 策略迭代算法(第 4 章)。要研究策略迭代算法,首先要了解 值迭代 算法(第 4 章)。要了解值迭代算法,首先要了解 Bellman 最优性方程(第 3 章)。要了解 Bellman 最优性方程,首先要了解 Bellman 方程(第 2 章)。因此,强烈建议逐一学习。否则,可能难以理解后面各章的内容。
    Bellman 方程(第 2 章) ——> Bellman 最优性方程(第 3 章) ——> 值迭代 算法(第 4 章) ——> MC 算法 (第 5 章)

    在这里插入图片描述

    ————————

    第 6 章 随机逼近 理论

    在这里插入图片描述

    随机逼近是指解决 寻根 或 优化问题 的一类广泛的随机迭代算法。经典的 Robbins-Monro 算法和 随机梯度下降 算法 是特殊的 随机逼近 算法。

    第 7 章 时序差分方法 【增量】

    在这里插入图片描述

    学习 状态值:用模型来计算(第 4 章)、用蒙特卡洛方法学习(第 5 章),用 TD 方法学习(第 7 章)。

    Q-learning: 离线 直接学习最优动作值

    两种策略: behavior policy, 生成经验数据的。target policy, 不断改进目标策略

    off-policy: behavior policy 和 target policy 可以不同。

    • 可用 之前别的策略所生成的数据。

    on-policy: behavior policy 和 target policy 相同。

    • 每次接收到 经验样本时 更新值估计。

    TD 算法:求解 Bellman 或 Bellman最优性方程 的随机逼近算法。

    model-free、增量。

    第 8 章 值函数 近似 [神经网络]

    在这里插入图片描述
    表格 或 向量 形式的状态值

    状态非常多 或 状态连续。 表格效率低下——> 函数 (神经网络)

    状态值 估计步骤:
    1、明确 目标函数 定义最优策略
    2、求 目标函数 梯度
    3、用 梯度上升 或 下降 对 目标函数 进行优化

    在这里插入图片描述

    9 - 10 章 policy-based 方法

    value-based VS policy-based
    value-based:目标函数 J ( w ) J(w) J(w),w 是值函数的参数,更新值函数的参数使得这个值函数能够很好地近似或者估计出来 一个策略 所对应的值, 在此基础上再更新策略,得到新的策略,然后再估计它的值。不断迭代找到最优的策略。
    policy-based:目标函数 J ( θ ) J(\theta) J(θ) θ \theta θ 是 策略的参数, 直接优化 θ \theta θ , 直接改变策略,慢慢找到最优的策略

    三步走:
    1、找 目标函数
    2、目标函数 梯度
    3、用梯度上升 或 下降 优化 目标函数

    在这里插入图片描述

    策略 和 值 交叉迭代

    求出值 ——> 更新策略 ——> 求值 ——> 更新策略…

  • 相关阅读:
    抗住大批量请求的高并发架构设计经验
    SpringBoot、基础篇
    【20221130】【每日一题】用最少数量的箭引爆气球
    腾讯:《智能科技 跨界相变——2024数字科技前沿应用趋势》
    App移动端测试【6】应用程序(apk)包管理与activity
    GcExcel5.2.3 中文版-Documents for Excel Java
    k8s之service五种负载均衡byte的区别
    Linux下怎么修改普通用户的权限?
    欢迎百合网联合创始人慕岩,追梦人创服李圆峰莅临龙测科技投资考察
    Lua封装函数模块并由其他模块调用
  • 原文地址:https://blog.csdn.net/weixin_46034116/article/details/138476378