深度强化学习记忆存放

一.基本概念

深度强化学习，英文名为Deep Reinforcement Learning，简称DRL。深度强化学习随着深度学习受人们的关注而不断兴起，随着算力的不断提升，深度学习得到了发展。深度学习的多层网络结构能够对图像进行处理，帮助智能体处理状态并加以学习。深度强化学习和传统强化学习算法的区别就是用到了神经网络。

二.记忆回放机制

在深度强化学习中直接用神经网络进行简易的Q学习算法会产生震荡或者发散，原因如下：

1.数据是序列化的，采用相关的时间连续的样本，不是独立的分布。

2.微小的Q值变动会剧烈地影响策略，策略可能会震荡从一个极端摇摆到另一个极端。

3.由于回报和Q值的范围未知，因此建议的Q学习梯度在反向传播的时候会变得非常不稳定。

因此引入replaybuffer经验池，其作用如下：

1.避免陷入局部最优

2.模仿监督学习的数据集

3.打破数据之间的关联性

相关阅读:
环形链表，如何用快慢指针跑出迷宫
SpringBoot实战（1）
SpringBoot SpringBoot 开发实用篇 5 整合第三方技术 5.12 j2cache 基本操作 5.12.3 j2cache 基本操作
Day15--加入购物车-初始化vuex
反射的概念和基本使用（一）
『FPGA通信接口』串行通信接口-IIC(2)EEPROM读写控制器
Linux系统命令——帮助命令、文件权限命令
Apache Atlas 2.2版本安装
Ubuntu1804里进行KITTI数据集可视化操作
词典查询工具django-mdict

原文地址：https://blog.csdn.net/anananajiushiwo/article/details/125346528

深度强化学习 记忆存放

一.基本概念

二.记忆回放机制

深度强化学习记忆存放