目录
深度强化学习,英文名为Deep Reinforcement Learning,简称DRL。深度强化学习随着深度学习受人们的关注而不断兴起,随着算力的不断提升,深度学习得到了发展。深度学习的多层网络结构能够对图像进行处理,帮助智能体处理状态并加以学习。深度强化学习和传统强化学习算法的区别就是用到了神经网络。
在深度强化学习中直接用神经网络进行简易的Q学习算法会产生震荡或者发散,原因如下:
1.数据是序列化的,采用相关的时间连续的样本,不是独立的分布。
2.微小的Q值变动会剧烈地影响策略,策略可能会震荡从一个极端摇摆到另一个极端。
3.由于回报和Q值的范围未知,因此建议的Q学习梯度在反向传播的时候会变得非常不稳定。
因此引入replaybuffer经验池,其作用如下:
1.避免陷入局部最优
2.模仿监督学习的数据集
3.打破数据之间的关联性