• RL强化学习总结(一)


    最近总结一下强化学习的知识点,听的是唐宇迪博士的课程,下面我将用自己的话语和理解进行表述!!!

    1. 强化学习概述

    强化学习,英文全称Reinforcement Learning,简称RL。

    引言

    想必大家都听过阿尔法狗战胜了世界围棋冠军的新闻吧。这里的阿尔法狗使用的就是AI中的强化学习,阿尔法狗通过大量学习世界上的棋谱,将判定下棋时每一步状态的最佳选择(选择当前状态中,奖励值最大的那一步)。

    主要机理

    强化学习是与环境不断交互,面临选择时,选择之后,如果效果比较好,会进行奖励;效果不好便进行惩罚。让模型在奖励和惩罚中进行学习。之后面临选择时,优先选择奖励值大的选择,从而达到不断学习的目的!

    当前的行为不仅会影响即时奖励,而且也会对下一步的奖励和后续的奖励产生影响

    2.强化学习基本概念

    基本概念

    (1)agent:中文翻译过来为智能体,就是我们模型中将要学习和被操作的对象。例如:自动驾驶中的汽车。
    (2)state:中文翻译过来为状态,就是当前智能体所处的周围情况和状态。例如:阿尔法狗与李世石下棋时,此时棋盘上黑白棋子所处位置和分布情况;自动驾驶汽车此时在路的哪个位置。
    (3)action:中文翻译过来为行为,就是在当前状态下,智能体将要采取的下一步是什么。例如:阿尔法狗将要在棋盘的哪个位置进行落子;自动驾驶的汽车下一个时刻将要采取怎么样的驾驶行为(直走,左拐,右拐…)
    (4)reward:中文翻译过来为奖励,奖励包括正向奖励也简称奖励,还包括负奖励也叫做惩罚。就是当前智能体采取行为之后,会得到怎样的反馈。例如:自动驾驶的汽车,行驶离目的地越来越近,进行奖励;与周围建筑物、车辆等发生了碰撞,进行惩罚。通过奖励和惩罚,“教”智能体去学习!!!
    (5)policy:中文翻译过来为策略,就是为了达到我最终的目的,采取怎样的一系列行为的组合,称作是策略。

    强化学习举例

    在这里插入图片描述
    智能体在采取行动前,会先进行观察。最开始会进行不同的选择,与环境交互之后(进行奖励和惩罚),学着去选择奖励值大的。
    观察——>行动——>观察
    不断进行循环…

    在这里插入图片描述
    如上图所示,简而言之就是:智能体不断与环境交互,环境对智能进行奖励和惩罚,从而改变智能体状态。
    进行反复循环,推动智能体进行状态变化,让智能体朝着奖励值大的方向移动。
    在这里插入图片描述
    这个车,采取行动(向左或者向右移动)之后,通过奖励措施,不断修改自身的状态(杆的角度和速度),从而“学着去”保持平衡!

    3.要用自己的话语和理解进行表述啊…

  • 相关阅读:
    文举论金:黄金原油全面走势分析策略独家指导
    Himall商城- web私有方法
    Web服务器-Tomcat详细原理与实现
    3D人脸关键点和重构调研
    pushgateway的安装与使用
    安卓核心板开发板的操作系统版本有哪些?
    面向对象编程-终结篇 es6新增语法
    野火FPGA强化(1):串口
    Activating More Pixels in Image Super-Resolution Transformer(HAT)超分
    uniapp如何上传文件,使用API是什么
  • 原文地址:https://blog.csdn.net/Elon15/article/details/126150090