强化学习-DQN和AC算法

DQN

DQN 是指基于深度学习的 Q-learning 算法，主要结合了价值函数近似(Value Function Approximation)与神经网络技术，并采用了目标网络和经历回放的方法进行网络的训练。

在 Q-learning 中，我们使用表格来存储每个状态 s 下采取动作 a 获得的奖励，即状态-动作值函数 Q(s,a)Q(s,a)。然而，这种方法在状态量巨大甚至是连续的任务中，会遇到维度灾难问题，往往是不可行的。因此，DQN 采用了价值函数近似的表示方法。

举例来说，有一种评论家叫做 state value function(状态价值函数)。状态价值函数的意思就是说，假设演员叫做 \piπ，拿 \piπ 跟环境去做互动。假设 \piπ 看到了某一个状态 s，如果在玩 Atari 游戏的话，状态 s 是某一个画面，看到某一个画面的时候，接下来一直玩到游戏结束，期望的累积奖励有多大。所以 V^{\pi}V
π
是一个函数，这个函数输入一个状态，然后它会输出一个标量( scalar)。这个标量代表说，\piπ 这个演员看到状态 s 的时候，接下来预期到游戏结束的时候，它可以得到多大的值。

DQN的问题

DQN 其实存在一些问题，最大的问题是它不太容易处理连续动作。很多时候动作是连续的，比如我们玩雅达利的游戏，智能体只需要决定比如说上下左右，这种动作是离散的。那很多时候动作是连续的。举例来说假设智能体要做的事情是开自驾车，它要决定说它方向盘要左转几度，右转几度，这是连续的。假设智能体是一个机器人，它身上有 50 个关节，它的每一个动作就对应到它身上的这 50

相关阅读:
R语言多个data.frame数据合并：cbind函数从列方向合并两个data.frame，rbind函数从行方向合并两个data.frame
辛苦复习两个月，线上三面阿里Java高开岗，终如愿拿到offer
JC/T 239-2014 蒸压粉煤灰砖检测
MD5加密后16位与32位的区别 [ 详细 ]
C语言进阶第十课 --------文件的操作
实战案例：如何批量查询物流信息并将结果导出到表格？
[附源码]SSM计算机毕业设计志愿者管理系统论文2022JAVA
新手如何快速上手HTTP爬虫IP？
基于STC89C52单片机的密码锁设计与实现
Linux基础8 - 网络配置

原文地址：https://blog.csdn.net/weixin_46714700/article/details/126595116