经验回放让在线强化学习代理记住和重用过去的经验。在之前的工作中,经验转换是从重播记忆中均匀采样的。然而,这种方法只是简单地以最初体验到的相同频率重播过渡,而不管它们的重要性。本文开发了一种经验优先级框架,以更频繁地重播重要的过渡,从而更有效地学习。在深度q网络(DQN)中使用优先体验重放,这是一种强化学习算法,在许多Atari游戏中实现了人类水平的性能。优先体验重放的DQN实现了新的技术水平,在49场比赛中有41场比赛的均匀重放超过了DQN。
背景:
具体来说,DQN使用了一个大的滑动窗口回放存储器,从其中均匀随机抽样,平均重新访问每个过渡8次。一般来说,经验重放可以减少学习所需的经验量,并以更多的计算和更多的内存取代它——这通常比RL代理与其环境的交互更便宜的资源。
一些转换可能不会立即对智能体有用,但当智能体能力增加时可能会有用(Schmidhuber, 1991)。经验回放将在线学习代理从按其体验的准确顺序处理转换中解放出来。优先重放进一步解放了智能体,使其不必以相同的频率考虑转换。
本文建议更频繁地重放具有高预期学习进展的过渡,由其时间差异(TD)误差的大小衡量