• 【强化学习】贝尔曼公式 - bellman equation


    return作用

    迷宫游戏
    还是用这个迷宫游戏说。
    首先明确,不撞墙到终点比撞墙到终点好。路径越短到终点越好。

    1. 不撞墙到终点比撞墙到终点好。你可以把撞墙这个reward设置成负数,不撞墙设置成0。那么在最终return进行累加的时候,不撞墙的return就会大。
    2. 路径越短到终点越好。我们计算return的时候还会乘上一个discount rate。介于0~1之间。走了几步这个rate就几次方再乘上reward进行求和。所以越后面到终点获得到的reward乘上这个rate就会越小
      在这里插入图片描述
      所以return可以来进行衡量我目前这个路径到底好还是不好

    return计算

    return可以衡量路径好还是不好那么也可以用来说明这个决策好还是不好。可以进行比较了。所以就需要进行对于return的计算。
    比如说给出一个policy怎么计算他在这个policy下的return值为多少。
    在这里插入图片描述
    可以列出return式子长这样
    在这里插入图片描述
    可以用巧方法,把后面这个discount rate提出去变这样
    在这里插入图片描述
    每个都这样变换一下变成这样
    在这里插入图片描述
    然后把这几个标量组合到一起去,写成向量形式
    在这里插入图片描述

    然后就可以对这个矩阵方程进行求解,就可以解出这个V的向量值,也就是对应每一个return

    这个就是贝尔曼公式
    在这里插入图片描述

    state value

    刚刚的这个例子的策略是一个state只有一个action,但实际上我一个state不一定只有有一个action,可能会有好多个action进行选择做。所以需要新的指标,这个就是state value。
    return实际上是针对一个trajectory进行一个reward进行一个累计。
    那么如果我一个state有好几个action进行选择,然后每一个action进入了不同state,他们又有好几个action,推下去就有好多个好多个trajectory,也就是有好多个return。
    state value就是把所有他们加起来算期望。也就是我只关心我的起点是这个state。只要是以这个state为起点就加进来算期望。最终得到的就是这个状态的state value
    然后注意的是,这个state value也是要基于这个决策的。所以state value实际上会有两个参数,一个是policy一个是state。
    例子
    在这里插入图片描述
    然后刚刚的那个return的例子,以及我们学习过的马尔科夫的性质,可以察觉到state value可以写成一个递推的式子。数学上确实也可以做的到。严谨的推理长这样:
    在这里插入图片描述
    把GT也就是return的第一步拆解了出来,再拆开期望进行分离,前部分就是关于行为获得reward的期望,后面就是discount rate乘上转移后状态的期望
    在这里插入图片描述
    然后去仔细分析一下这个概率取值。就会发现这个代表当前这个状态的各个行为的reward的期望
    在这里插入图片描述
    同样这个自习分析一下概率,可以发现这一项代表能够根据s状态转移到的不同状态对应的state value的期望

    然后把前后两项相同的条件概率提出去就可以得到贝尔曼公式
    在这里插入图片描述
    参考第二个return特例,也可以写出贝尔曼公式的向量形式
    在这里插入图片描述

    action value

    最后再说说action value。
    return值可以反映我这个trajectory好不好。那么他进行期望,得到的state value就可以说明我这个状态是否是更接近我的目标的。
    那么我们还需要进行考虑的是,我在我这个state 我到底需要进行那个action?所以就有action value。
    感觉一下,我的做出action是不是有一个reward,然后我进行了action是不是到了一个新的state。所以我的action value就是把他们加起来。然后有多个action,算期望就行。
    同理action value主要拿来评判我这个action到底哪个会好一点的。
    有数学定义与证明。
    这里略

  • 相关阅读:
    ubuntu 22.04版本修改时区的操作方法
    HTML 基本开发方式,学会常用的 HTML 标签
    面试突击90:过滤器和拦截器有什么区别?
    SRM系统能为企业带来什么好处,企业该怎么选择SRM系统供应商
    Dubbo源码解析一服务暴露与发现
    【高端电流检测IC储能产品应用方案】耐压45V侧轨的电流检测芯片FP137 应用于电脑电源,开关电源以及多口快充充电器,户外移动电源,适配器,电池充电器等
    Vue-Router学习记录
    uniapp常见兼容性问题
    解决nginx反向代理web service的soap:address location问题
    ubuntu 外置相机使用记录
  • 原文地址:https://blog.csdn.net/qq_49400568/article/details/132650178