• 1、强化学习基础知识点


    概率论知识补充

    Random Variable

    抛硬币是随机事件,正面朝上与反面朝上概率都是0.5,通常使用X表示随机变量,x表示观测值
    在这里插入图片描述

    Probability Density Function (PDF)

    概率密度函数意味着某个随机变量在某个确定的取值点附件的可能性

    高斯分布
    在这里插入图片描述
    离散概率分布
    在这里插入图片描述
    概率密度函数如果为连续型,则函数积分和为1,离散型所有取值和为1
    在这里插入图片描述

    Random Sampling

    随机抽样
    在这里插入图片描述

    在这里插入图片描述

    强化学习基础

    强化学习概念名词

    在这里插入图片描述
    state:状态
    action:动作
    agent:智能体
    在这里插入图片描述
    policy:策略(概率密度函数)
    在这里插入图片描述
    各个动作的概率,使用随机的策略,更切合现实,不易看出规律
    在这里插入图片描述
    reward:奖励
    要根据实际情况设置奖励,如:吃到金币奖励+1,游戏通过奖励+10000,玛丽淘汰奖励-10000,什么也没发生奖励是0,强化学习的目的是提高获得的奖励在这里插入图片描述
    state transition:状态转移
    状态转移是随机的,状态转移概率密度函数只有环境知道,玩家不知道

    简介

    在这里插入图片描述
    agent采取action,environment的state改变同时返回reward给agent,agent根据reward进行学习

    • 强化学习中随机性的来源
      action的随机性
      在这里插入图片描述
      state的随机性
      在这里插入图片描述
    • AI如何玩游戏
      在这里插入图片描述
      在这里插入图片描述
      观察state s1,Agent利用policy函数执行action a1,environment生成新的state s2并返回的reward r1给agent ,agent再次利用policy函数执行action a2。。。。。。循环该操作
    • Rewards and Returns
      在这里插入图片描述
    • 回报

    return:回报,也就是未来的累积奖励
    Ut由Rt到游戏结束Rn累加所得。当前reword应该比后期reword权重大,比如:今天的80元比明天100元来得实际
    在这里插入图片描述
    y:折扣汇报,介于0-1

    • 汇报的随机性

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    t时刻return取决于t到n时刻的reward,reward取决与state和action,所以return也取决与state和action

    • Value Function

    action-value function——动作价值函数
    在这里插入图片描述
    在这里插入图片描述
    对于Ut而言,St和At是可以观察的,St+1——Sn,和At+1——An是随机变量
    在这里插入图片描述
    St+1概率与St,At有关,At+1概率与St+1有关
    在这里插入图片描述
    state-value function——状态价值函数
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    在这里插入图片描述

    • Ai control the agent
      在这里插入图片描述
      Π(a|s)策略学习函数,在state情况下最优action,Q(s,a)计算各个动作的得分,选择最优*

    评估强化学习

    OpenAI Gym
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    总结

    在这里插入图片描述

    Deep Q-Network(DQN)

    在这里插入图片描述
    Q 就像是挂,给我们游戏提供最优策略,然后现实是不存在的*
    在这里插入图片描述
    我们可以使用神经网络去近似Q*
    在这里插入图片描述

    Temporal Difference (TD) Learning

    论文

    Sutton and others: A convergent O(n) algorithm for off-policy temporal-difference learning with linear function approximation. In NIPS, 2008.
    Sutton and others: Fast gradient-descent methods for temporal-difference learning with linear function approximation. In ICML, 2009

    例子
    在这里插入图片描述
    从NYC到Atlanta,模型预测要1000分钟,实际需要860分钟,那么以方差为损失,就可以进行梯度优化,听起来就像是普通的回归

    那么我就开到中途就停车了,我不去Atlanta了,我还能获得更好的w来优化模型么?答案是可以的
    在这里插入图片描述
    在这里插入图片描述
    虽然我到DC就停了,这里我们可以测量从NYC到DC需要300分钟,模型再预测需要900分钟从DC到Atlanta,那么就可以用1000和(300+600)来计算损失,优化模型

    • TD Learning
      在这里插入图片描述

    DQN应用TD Learning

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    总结

    在这里插入图片描述

  • 相关阅读:
    本地拉取远程代码并
    SDEI初探-透过事务看本质
    JMeter 4.0 如何获取cookie
    原生JS中的Ajax
    开源IDaaS方舟一账通ArkID系统内置OIDC 认证插件配置流程
    7.spark sql编程
    轻松上手的VsCode:你的理想代码编辑器!
    【Verilog 教程】7.1Verilog 除法器设计
    ubuntu(23):ubuntu系统具有两个“系统盘”的说明:一个盘为系统盘,另一个为被系统文件占用的数据盘--可以格式化并重新分配卷类型和卷名称
    salesforce零基础学习(一百二十一)Limitation篇之Heap Size Limitation
  • 原文地址:https://blog.csdn.net/weixin_50973728/article/details/125615069