码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 深度强化学习笔记


    p3策略学习,

    03:06 softmax

    state st conv卷积层-》特征向量-》再映射到三维向量(因为3个动作,3维)-》softmax激动函数,变化概率分布,(各概率要相加等于1,每一个元素对应一个动作,)
    pai是一个概率密度函数。
    softamx激活函数为正,且相加为1

    策略函数pai
    状态价值函数Vpai
    当前状态s
    Vpai越大,胜算概率越大
    离散动作,可以展开

    策略网络的评价,J(sita),J(sita)越大越好。
    所以要,梯度下降,sita学习率

    综上要用到策略梯度
    09:14
    v对sita的导数。连加里面。连加的导数就是导数的连加。

    12:06
    链式法则,log函数的性质
    推导不严谨
    12:55
    策略梯度的二种等价

    对于 连续的
    用策略梯度的第二种方式。用定积分算不出来,只能用蒙特卡罗近似,把值近似出来

    总结的很好
    策略梯度。为什么要梯度上升。

    P4

    所以说学习二个神经网络
    08.19步骤
    预测与
    梯度下降损失函数变小,
    12.28总结
    为了让裁判变的优秀,也是提高打分水平,裁判基于a q r打分。
    用梯度下载来让裁判越来越准
    裁判打分qt 及qt+1
    TD error,deitat
    6算梯度,做梯度下降,是为了越来越准。
    用梯度上升。
    一共9个动作。
    qt也是daitat。
    base line,任务接近的,都可以做baseline
    最后总结
    19.54《cute》
    vpai越大越好,
    所以用

    P6 15.13

    蒙特卡罗步骤

  • 相关阅读:
    opengl函数加载和错误处理
    set容器 集合 常用 API操作 (只读迭代器)
    mysql5.7安装审计日志插件audit-plugin
    挺进欧洲:中国汽车如何破解品牌与成本双重困境?
    SDH网络传输基本传输原理及优点——TFN D240S 155M SDH传输分析仪
    axios二次封装
    Chrome Extensions v3 迁移清单
    使用idea,操作git创建分支,回滚版本,合并分支 ---全流程配图---
    配置 npm run-script 在 PowerShell 中运行
    why redis-cluster use 16384 slots?
  • 原文地址:https://blog.csdn.net/bonlog/article/details/125111443
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号