• ▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch1 基本概念


    PPT 截取有用信息。 课程网站做习题。总体 MOOC 过一遍

    • 1、视频 + 学堂在线 习题
    • 2、相应章节 过电子书 复习
    • 3、总体 MOOC 过一遍

    学堂在线 课程页面链接
    中国大学MOOC 课程页面链接
    B 站 视频链接

    PPT和书籍下载网址: 【github链接】
    onedrive链接:
    【书】
    【课程PPT】


    通过 例子 介绍 强化学习 的基本概念
    基于 马尔可夫决策过程 介绍

    状态 State: s 1 , s 2 , . . . , s 9 s_1, s_2, ..., s_9 s1,s2,...,s9
    状态空间 State space : S = { s i } i = 1 9 \mathcal{S} = \{s_i\}_{i = 1}^9 S={si}i=19

    行动 Action: a 1 , . . . , a 5 a_1,..., a_5 a1,...,a5
    行动空间 Action space: A ( s i ) = { a i } i = 1 5 \mathcal{A}(s_i) = \{a_i\}_{i = 1}^5 A(si)={ai}i=15

    状态转移 state transition: s 1 → a 2 s 2 s_1\xrightarrow{a_2} s_2 s1a2 s2

    在这里插入图片描述
    只能表示确定的情况,无法表示 状态转移多种可能的情况

    状态转移概率 State transition probability:

    • 既可描述 确定性情况,也可描述具有 随机性的情况。
      p ( s 2 ∣ s 1 , a 2 ) = 1 p(s_2|s_1,a_2) = 1 p(s2s1,a2)=1
      p ( s i ∣ s 1 , a 2 ) = 0 , ∀   i ≠ 2 p(s_i|s_1, a_2)=0, \forall ~ i\neq 2 p(sis1,a2)=0, i=2

    策略 Policy
    策略 告诉 agent 在每个状态下 要采取 哪些行动。

    三种表示方法:
    在这里插入图片描述

    数学表示:
    π \pi π: 条件概率,任何一个状态下, 任何一个 action 的概率

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    ——————
    奖励 Reward: 实数、标量。人机交互的手段

    r ( s , a ) r(s, a) r(s,a)

    一般
    正: 鼓励
    负: 惩罚

    即时奖励 大 并不意味着 能获得 最大的总体奖励。

    在这里插入图片描述
    在这里插入图片描述

    轨迹 Trajectory: 状态-动作-奖励 链

    回报 return:沿轨迹 获得的所有奖励的总和

    在这里插入图片描述
    return 越大, 策略越好。

    Discounted return 折扣回报

    在这里插入图片描述

    折扣率 discount rate γ \gamma γ

    在这里插入图片描述
    每多进行 一个 动作, 前面的 参数多乘上一个 γ \gamma γ

    作用:
    1、和 不再发散。
    2、平衡 更近未来 得到的 reward 和 更远未来 得到的 reward。

    减小 γ \gamma γ, 近视,更加注重最近的 reward。
    增大 γ \gamma γ, 远视,更加注重长远的 reward。

    回合 Episode: 试了一次。有限步

    episodic tasks: 最终停在某处的 任务
    continuing tasks:agent 和 环境的交互会永远持续

    将 episodic tasks 转成 continuing tasks, 统一处理
    方法一: 将 目标状态 视为 特殊的 吸收状态 (absorbing state)。一旦 agent 到达 一个 吸收状态, 就不会再离开。之后的奖励 都为 0.
    方法二: 将目标状态 视为 带策略的普通状态。耗费更多的搜索,更一般化。【本课程 选择这种】

    • 通过 折扣率 计算折扣回报 避免 发散。

    马尔科夫决策过程 (Markov decision process,MDP)

    MDP 的关键要素:
    集合:
    状态集合 State S \mathcal{S} S
    动作集合 Action A ( s ) \mathcal{A(s)} A(s), 其中 s ∈ S s \in \mathcal{S} sS
    奖励集合 Reward R ( s , a ) \mathcal{R(s, a)} R(s,a)

    概率分布:
    状态转移概率 State transition probability

    • 状态 s \mathcal{s} s ,进行动作 a \mathcal{a} a,转移到 状态 s ′ \mathcal{s}^{\prime} s 的概率为 p ( s ′ ∣ ( s , a ) ) p(\mathcal{s}^{\prime}|(s, a)) p(s(s,a))

    奖励概率 Reward probability

    • 状态 s \mathcal{s} s ,进行动作 a \mathcal{a} a,获得奖励 r \mathcal{r} r 的概率为 p ( r ∣ ( s , a ) ) p(r|(s, a)) p(r(s,a))

    策略 Policy: 状态为 s \mathcal{s} s, 进行动作 a \mathcal{a} a 的概率为 π ( a ∣ s ) \pi(a|s) π(as)

    Markov 特性: 无记忆性,下一刻 t + 1 t + 1 t+1 的 状态 和 奖励 仅和当前时刻 t t t 的 状态 有关。

    p ( s t + 1 ∣ a t + 1 , s t , . . . , a 1 , s 0 ) = p ( s t + 1 ∣ a t + 1 , s t ) p(s_{t + 1}|a_{t + 1}, s_t,...,a_1,s_0)=p(s_{t + 1}|a_{t + 1}, s_t) p(st+1at+1,st,...,a1,s0)=p(st+1at+1,st)
    p ( r t + 1 ∣ a t + 1 , s t , . . . , a 1 , s 0 ) = p ( r t + 1 ∣ a t + 1 , s t ) p(r_{t + 1}|a_{t + 1}, s_t,...,a_1,s_0)=p(r_{t + 1}|a_{t + 1}, s_t) p(rt+1at+1,st,...,a1,s0)=p(rt+1at+1,st)

    马尔科夫决策过程 + 确定的策略 ——> 马尔科夫过程

    回报 和 下一状态 s ′ s^\prime s 有关。
    p ( r ∣ s , a ) = ∑ s ′ p ( r ∣ s , a , s ′ ) p ( s ′ ∣ s , a ) p(r|s, a)=\sum\limits_{s^\prime}p(r|s,a,s^{\prime})p(s^\prime|s,a) p(rs,a)=sp(rs,a,s)p(ss,a)

    习题笔记:

    • 每一个状态最优的动作是能得到 长期回报 均值最大 的那个,而不是得到立即奖励最大的那个。

    • MDP是和策略有关系的,其中 decision 对应的就是 policy。

  • 相关阅读:
    Java.lang.Class类 getSigners()方法有什么功能呢?
    力扣572 另一棵树的子树
    基于SSM的公选课的选课系统/选课系统的设计与实现
    Java面试题之static、this关键字、变量详解
    pat倒数3天
    提示计算机丢失msvcp140.dll怎么办,缺少msvcp140.dll一键修复
    7 C控制语句:分支和跳转
    elasticsearch升级和索引重建
    Java 终极学习路线 - 共计 9 大模块 /6 大框架 /13 个中间件
    MySQL的高阶语句
  • 原文地址:https://blog.csdn.net/weixin_46034116/article/details/138477873