本文将深度q学习成功的基础思想应用于连续动作域。本文提出一种基于确定性策略梯度的actor-critic无模型算法,可在连续动作空间上操作。使用相同的学习算法、网络架构和超参数,所提出算法鲁棒地解决了20多个模拟物理任务,包括cartpole倒车、灵巧操作、腿部运动和汽车驾驶等经典问题。该算法能够找到性能与那些由完全访问域及其衍生物的动态规划算法所找到的策略相竞争的策略。进一步证明,对于许多任务,该算法可以"端到端"学习策略:直接从原始像素输入中学习
背景:
1)DQN不能直接应用于连续域,因为它依赖于找到最大化动作值函数的动作,在连续值的情况下,每一步都需要迭代优化过程
2)本文提出一种无模型、非策略的actor-critic算法,使用深度函数逼近器,可以在高维连续动作空间中学习策略
方法:
本文将actor-critic方法与深度Q网络(DQN)最近成功的见解相结合(Mnih等人,2013;2015)。在DQN之前,人们普遍认为使用大型的非线性函数逼近器学习值函数是困难的和不稳定的。DQN能够使用这种函数逼近器以稳定和鲁棒的方式学习值函数,因为有两个创新:1。利用回放缓冲区中的样本对网络进行离线训练,以最小化样本之间的相关性;2. 该网络使用目标Q网络进行训练,以在时间差异备份期间提供一致的目标。本文利用相同的思想,以及批量归一化(Ioffe & Szegedy, 2015),这是深度学习的最新进展。
算法:
在这里,我们使用了一种基于DPG算法的行动者-评论家方法。
本文的贡献是受DQN成功的启发,对DPG进行了修改,使其能够使用神经网络函数逼近器在大型状态和动作空间中在线学习。我们将该算法称为深度DPG (DDPG,算法1)。
使用神经网络进行强化学习时的一个挑战是,大多数优化算法假设样本是独立同分布的。显然,当在一个环境中按顺序探索生成样本时,这个假设不再成立。此外,为了有效利用硬件优化,必须以小批量学习,而不是在线学习
在连续动作空间中学习的一个主要挑战是探索。非策略算法(如DDPG)的一个优点是,我们可以独立于学习算法来处理探索问题。我们通过将从噪声过程N中采样的噪声添加到actor策略中,构建了探索策略μ