• [吴恩达机器学习课程笔记] week four强化学习


    强化学习定义

    强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题

    在强化学习框架中,我们将只提供我们的算法一个奖励函数,它指示学习代理何时做得好,当它做得不好。然后,学习算法的工作将是找出如何随时间选择行动,从而获得巨大的奖励。

    强化学习系统一般包括四个要素:策略(policy),奖励(reward),价值(value)以及环境或者说是模型(model)。

    策略
    策略定义了智能体对于给定状态所做出的行为,换句话说,就是一个从状态到行为的映射,事实上状态包括了环境状态和智能体状态,这里我们是从智能体出发的,也就是指智能体所感知到的状态。因此我们可以知道策略是强化学习系统的核心,因为我们完全可以通过策略来确定每个状态下的行为。我们将策略的特点总结为以下三点:

    1. 策略定义智能体的行为
    2. 它是从状态到行为的映射
    3. 策略本身可以是具体的映射也可以是随机的分布

    奖励(Reward)
    奖励信号定义了强化学习问题的目标,在每个时间步骤内,环境向强化学习发出的标量值即为奖励,它能定义智能体表现好坏,类似人类感受到快乐或是痛苦。因此我们可以体会到奖励信号是影响策略的主要因素。我们将奖励的特点总结为以下三点:

    1. 奖励是一个标量的反馈信号
    2. 它能表征在某一步智能体的表现如何
    3. 智能体的任务就是使得一个时段内积累的总奖励值最大

    价值(Value)
    接下来说说价值,或者说价值函数,这是强化学习中非常重要的概念,与奖励的即时性不同,价值函数是对长期收益的衡量。我们常常会说“既要脚踏实地,也要仰望星空”,对价值函数的评估就是“仰望星空”,从一个长期的角度来评判当前行为的收益,而不仅仅盯着眼前的奖励。结合强化学习的目的,我们能很明确地体会到价值函数的重要性,事实上在很长的一段时间内,强化学习的研究就是集中在对价值的估计。我们将价值函数的特点总结为以下三点:

    1. 价值函数是对未来奖励的预测
    2. 它可以评估状态的好坏
    3. 价值函数的计算需要对状态之间的转移进行分析

    环境(模型)
    也叫外界环境,它是对环境的模拟,举个例子来理解,当给出了状态与行为后,有了模型我们就可以预测接下来的状态和对应的奖励。但我们要注意的一点是并非所有的强化学习系统都需要有一个模型,因此会有基于模型(Model-based)、不基于模型(Model-free)两种不同的方法,不基于模型的方法主要是通过对策略和价值函数分析进行学习。我们将模型的特点总结为以下两点:

    1. 模型可以预测环境下一步的表现
    2. 表现具体可由预测的状态和奖励来反映

    https://blog.csdn.net/weixin_45560318/article/details/112981006

    MDP过程 Markov decision processes

    状态、动作、状态转移概率、折扣因子、奖励函数

    价值函数

    伯努利方程

    价值迭代

    策略迭代

  • 相关阅读:
    修改CentOS默认mail发件人名称
    Java23种设计模式-创建型模式之抽象工厂模式
    优先级队列(priority_queue)
    开咖啡店该如何做好管理?实现快速盈利
    SpringBoot学习小结之分库分表、读写分离利器Shardingsphere
    外汇天眼:Poipex 申请出金超过100天不到账!投资者250万入金打水漂!所有联系方式全不回应
    【linux实用命令】
    【C++】动态内存管理 ④ ( 对象的动态创建和释放引申思考 | 基础数据类型 内存分析 | malloc 分配内存 delete 释放 | new 分配内存 free 释放内存 )
    Springboot+校园健身互助平台 毕业设计-附源码221540
    专业吃鸡行家揭秘:游戏战斗力提升,作战干货分享!
  • 原文地址:https://blog.csdn.net/mossfan/article/details/125460294