码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 【Saras算法】TD Learning的一种


    强化学习相关的Sarsa算法的介绍。此处笔记根据B站课程,王树森老师的强化学习记录而来。7.Sarsa算法 (TD Learning 1_3)(Av374239425,P7)_哔哩哔哩_bilibili

    Sarsa算法是TD算法的一种,名字来源于 需要观测的五元组(s(t), a(t), r(t), s(t+1), a(t+1)),即 State-Action-Reward-State-Action ,简称SARSA

    1.TD target的推导

    U(t)是折扣回报率,根据下面的推导,可以得到U(t)=R(t)+γ*U(t+1), 反映两个相邻回报之间的关系。

     假设R(t)依赖于(S(t), A(t), S(t+1))

    QΠ(s(t),a(t))=E(U(t)|s(t),u(t)) 是U(t)的的期望,根据下面的推导可以得到下面的公式。

    QΠ可以用r(t)+γ*QΠ(s(t+1),a(t+1)),其中QΠ是估计值,r(t)+γ*QΠ(s(t+1),a(t+1))是TD target y^,r(t)是观测到的奖励,QΠ(s(t+1),a(t+1))是QΠ的预测。r(t)+γ*QΠ(s(t+1),a(t+1))比QΠ更加贴近真实值。

     

    2.表格型的SARSA: Tabular Version

    适用于状态s和动作a有限的情况,绘制如下所示的表格,每个单元格表示对应动作的价值,用saras算法每次更新一个单元格。观测值( s(t), a(t),    r(t),      s(t+1)),根据Π(.|s(t+1))搜集抽样动作a(t+1),计算TD target y^,计算误差,更新。使QΠ逐渐接近真实值。

    3.网络型SARSA: Sarsa Neural Network Version

     

    使用神经网络近似,适用于状态s和动作a过多,无法使用表格的情况。需要训练一个价值网络q(s,a;w)近似QΠ(s,a),网络q随机初始化,学习参数w,根据观测到的reward,使用梯度下降更新w.

     

     Summary:

     

     

  • 相关阅读:
    为什么你的项目总延期?多半是没做好5件事
    源码分析:tb-core 的作用
    编译原生安卓aosp源码,实现硬改以及定位
    一个组合多位师傅的渗透测试字典 建议收藏
    论文解读-DeepEdit:使用纳米孔直接RNA测序对A - to - I RNA编辑事件进行单分子检测和阶段划分
    Kafka消息可视化工具-Offset Explorer使用
    支付系统 — 支付路由
    SQL注入简介
    Kube-OVN子网
    vue项目路由重定向之后匹配路由的问题
  • 原文地址:https://blog.csdn.net/lt_BeiMo/article/details/126644086
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号