码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 深入理解强化学习——马尔可夫决策过程:马尔可夫奖励过程-[计算马尔可夫奖励过程价值的动态规划方法]


    分类目录:《深入理解强化学习》总目录


    文章《深入理解强化学习——马尔可夫决策过程:马尔可夫奖励过程-[计算马尔可夫奖励过程价值的蒙特卡洛方法]》介绍了计算马尔可夫奖励过程价值的蒙特卡洛方法,同时我们也可以用动态规划的方法,一直迭代贝尔曼方程,直到价值函数收敛,我们就可以得到某个状态的价值。我们通过自举(Bootstrapping)的方法不停地迭代贝尔曼方程,当最后更新的状态与我们上一个状态的区别并不大的时候,更新就可以停止,我们就可以输出最新的 V ′ ( s ) V'(s) V′(s)作为它当前的状态的价值。这里就是把贝尔曼方程变成一个贝尔曼更新(Bellman Update),这样就可以得到状态的价值。

    动态规划的方法基于后继状态价值的估计来更新现在状态价值的估计,如下文所示算法中的第3行用 V ′ V' V′来更新 V V V。根据其他估算值来更新估算值的思想,我们称其为自举。

    动态规划方法来计算价值
    输入:随机产生轨迹的个数 N N N
    (1) ∀ s ∈ S : V ′ ( s ) = 0 , V ( s ) = + ∞ \forall s\in S: V'(s)=0, V(s)=+\infty ∀s∈S:V′(s)=0,V(s)=+∞
    (2) if    ∣ ∣ V − V ′ ∣ ∣ < ϵ \ \ ||V-V'||<\epsilon   ∣∣V−V′∣∣<ϵ
    (3) V = V ′ \quad V=V' V=V′
    (4) ∀ s ∈ S : V ′ ( s ) = R ( s ) + γ ∑ s ′ ∈ S P ( s ′ ∣ s ) V ( s ′ ) \quad \forall s\in S: V'(s)=R(s)+\gamma\sum_{s'\in S}P(s' | s)V(s') ∀s∈S:V′(s)=R(s)+γ∑s′∈S​P(s′∣s)V(s′)
    (5) ∀ s ∈ S : \forall s\in S: ∀s∈S: 返回 V ( s ) V(s) V(s)

    参考文献:
    [1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
    [2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
    [3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
    [4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022

  • 相关阅读:
    Linux:169.254.0.0/24路由的来龙去脉
    基于价值的学习算法
    uniapp刻度尺的实现(swiper)滑动打分器
    ipv6地址概述——深入讲解ipv6地址
    window环境下Redis7服务器的安装和运行
    探索 ArrayList 原理 - 第二节 ArrayList 继承体系源码分析
    Rust 如何优雅关闭 channel
    C++字符串字面量初始化““s的使用方法与示例
    【GitHub】如果在进行PR时忘记 cloning forked repo,该如何进行修补呢
    React(10)-组件通信(important)
  • 原文地址:https://blog.csdn.net/hy592070616/article/details/134516298
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号