RL强化学习总结（一）

最近总结一下强化学习的知识点，听的是唐宇迪博士的课程，下面我将用自己的话语和理解进行表述！！！

1. 强化学习概述

强化学习，英文全称Reinforcement Learning，简称RL。

引言

想必大家都听过阿尔法狗战胜了世界围棋冠军的新闻吧。这里的阿尔法狗使用的就是AI中的强化学习，阿尔法狗通过大量学习世界上的棋谱，将判定下棋时每一步状态的最佳选择（选择当前状态中，奖励值最大的那一步）。

主要机理

强化学习是与环境不断交互，面临选择时，选择之后，如果效果比较好，会进行奖励；效果不好便进行惩罚。让模型在奖励和惩罚中进行学习。之后面临选择时，优先选择奖励值大的选择，从而达到不断学习的目的！

当前的行为不仅会影响即时奖励，而且也会对下一步的奖励和后续的奖励产生影响

2.强化学习基本概念

基本概念

（1）agent：中文翻译过来为智能体，就是我们模型中将要学习和被操作的对象。例如：自动驾驶中的汽车。
（2）state：中文翻译过来为状态，就是当前智能体所处的周围情况和状态。例如：阿尔法狗与李世石下棋时，此时棋盘上黑白棋子所处位置和分布情况；自动驾驶汽车此时在路的哪个位置。
（3）action：中文翻译过来为行为，就是在当前状态下，智能体将要采取的下一步是什么。例如：阿尔法狗将要在棋盘的哪个位置进行落子；自动驾驶的汽车下一个时刻将要采取怎么样的驾驶行为（直走，左拐，右拐…）
（4）reward：中文翻译过来为奖励，奖励包括正向奖励也简称奖励，还包括负奖励也叫做惩罚。就是当前智能体采取行为之后，会得到怎样的反馈。例如：自动驾驶的汽车，行驶离目的地越来越近，进行奖励；与周围建筑物、车辆等发生了碰撞，进行惩罚。通过奖励和惩罚，“教”智能体去学习！！！
（5）policy：中文翻译过来为策略，就是为了达到我最终的目的，采取怎样的一系列行为的组合，称作是策略。

强化学习举例

在这里插入图片描述
智能体在采取行动前，会先进行观察。最开始会进行不同的选择，与环境交互之后（进行奖励和惩罚），学着去选择奖励值大的。
观察——>行动——>观察
不断进行循环…

如上图所示，简而言之就是：智能体不断与环境交互，环境对智能进行奖励和惩罚，从而改变智能体状态。
进行反复循环，推动智能体进行状态变化，让智能体朝着奖励值大的方向移动。
在这里插入图片描述
这个车，采取行动（向左或者向右移动）之后，通过奖励措施，不断修改自身的状态（杆的角度和速度），从而“学着去”保持平衡！

3.要用自己的话语和理解进行表述啊…

相关阅读:
Mybatis 常见面试题
led灯什么牌子的质量好？Led护眼台灯排行榜
报表开发工具DevExpress Reporting v23.2 - 增强PDF导出、多平台打印等
刷题日记【第三天】
Linux修改openssl配置
Acwing1015. 摘花生
通过电商项目，详解抓包到接口测试，附图片验证码 +cookie 问题处理！
从原理到实践 | Pytorch tensor 张量花式操作
如何在 Windows 10/11 上编辑 PDF [4 种简单方法]
什么是视图

原文地址：https://blog.csdn.net/Elon15/article/details/126150090