个人强化学习论文导航

这里整理我笔记过的强化学习论文
持续更新中…

关于问题范数的介绍
1. 图解 RL/IL 问题范式（On-Policy、Off-policy、Offline/Batch、IL…）
2. Offline/Batch RL简介

文章目录

1 RL 经典
2 经验回放 Experience Replay
3 离线强化学习 Offline RL
4 情节控制 Episodic Control
5 可解释性
6 多智能体
7 探索策略

1 RL 经典

【Nature 2015】 —— 【DQN】Human-level control through deep reinforcement learning
- 使用 Q 价值网络替代过去 Q-learning 中的 Q 表格，loss 为关于 TD error 的 MSE 损失，使用了均匀经验重放
…

2 经验回放 Experience Replay

【NIPS 2020】—— 【LAP & PAL】An Equivalence between Loss Functions and Non-Uniform Sampling in Exp Replay
- 这是一篇偏向理论分析的文章，主要结论为：经验回放时 “真正的非均匀采样” 和另一个 “使用不同损失的均匀采样方案” 从梯度角度看是等价的，并给出了转换方法
- 作者用考察估计价值常用的 PER + MSE loss 方案，发现其等价均匀重放损失中 TD error 项的幂次超过 2，因此优化过程会偏向异常点（类似最小二乘法受离群点影响）
- 最后，作者提出了一种 PER 的改进方案 LAP，以及等价的均匀重放损失 PAL
【ICLR 2016】—— 【PER】Prioritized Experience Replay
- 非均匀经验重放领域经典文章，TD error 绝对值代表 agent 面对一个新 $(s, a)$ pair 的 “惊讶程度”，直接用 transition TD error 绝对值的大小或排名进行加权重放
【NIPS 2020】—— 【DisCor】Corrective Feedback in RL via Distribution Correction
- 作者注意到，来自 bootstrap 的 TD target 是渐进准确的，因此训练早期给出的目标并不准确，DRL 中引入价值网络会使这个问题更加严重，导致 RL 的价值学习缺乏 “纠正性反馈”，Q 价值估计不准。作者以最小化全局 Q 误差为目标解优化问题，算出一个采样加权策略，得到的结果也很符合直觉：应该强调那些当前估计更精确（即当前 $Q (s, a)$ 更靠近 $Q^*(s,a)$ ）的 transition
- 结果中出现了很多无法直接获得的项，作者做了大量放松近似
【PMLR 2022】—— 【LFIW】Experience Replay with Likelihood-free Importance Weights
- 作者认为重放样本时应该多关注那些当前策略访问更频繁的 $(s, a)$ ，因为那些目前几乎访问不到的 pair 对于更新当前策略也几乎没有意义。因此作者设计的重放权重就是当前策略和 replay buffer 中 transition 分布的重要性采样比，使用快慢缓冲区的方法来估计其值
【NIPS 2021】—— 【ReMERN & ReMERT】Regret Minimization Exp Replay in Off-Policy RL
- 作者直接以最小化后悔（最大化累计折扣回报）为目标解优化问题，算出一个采样加权策略，注意这是 RL 方法的终极目标，得到的加权方案应该是无偏的
- 解出的结果说明：事后 TD error越大、on-policy 性质越强、Q 值估计越准确的 transition，应在抽样过程中赋予更高的权重。注意到这些指标分别对应了 PER、LFIW、DisCor 三篇文章，把过去的方法统一起来了
…

3 离线强化学习 Offline RL

【NIPS 2021】 —— 【COIL】Curriculum Offline Imitating Learning
- 一种 IL-based 的 Offline RL 方法。作者发现，过去从 random 策略开始直接对混合数据集进行 BC，不得不使用很多差的 transition 扩展数据集覆盖的 $\mathcal{S\times A}$ 空间，导致最好的那些 transition 的作用被抵消掉
- 作者认为可以构造一系列 BC 课程，令每个迭代课程中的初始策略 $\pi_0$ 和模仿对象 $\pi_b$ 接近，这时级联错误问题可以近似忽略，那些略优于每个 BC 课程初始策略 $\pi_0$ 的 transition 能最大限度地发挥作用，高效地将 $\pi_0$ 提升为接近 $\pi_b$ 的 $\pi$ ，最终学得策略的性能可以接近混合数据集中最好的行为策略
- COIL 每轮迭代根据 “相似度” 和 “性能” 两个条件从 Offline dataset 中选出一个候选轨迹经验池作为模拟目标，通过 BC 进行学习，策略更新之后，从 Offline dataset 中清除使用过的轨迹，并用 Return Filter 进一步过滤掉性能不佳的轨迹，直到 dataset 空时自当停止
【NIPS 2020】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning
- 一种 IL-based 的 Offline RL 方法。想法很直接，就是挑出 offline dataset 里 return 最好（最接近 $V^*(s)$ ）的那部分 $(s, a)$ 样本做模仿学习。作者训练了一个上包络网络，估计出各个状态 $s$ 对应 return 的上极限，然后选出最接近这个极限的那部分 transition
- 由于 offline dataset 中轨迹长度有限，return 可能不准确，作者设计了一个启发式的方法对轨迹进行拼接，提高估计数据集中 $(s, a)$ pair return 的精度
…

4 情节控制 Episodic Control

【CoRR 2016】—— 【MFEC】Model Free Episodic Control
- Episodic Control 领域的第一篇文章，通过改变 RL 中价值估计的方式来提高样本效率。传统 Q-learning 等方法的 $Q$ 价值代表未来累计折扣 return 的期望，需要基于 MC 进行估计，效率很低。作者提出使用代表未来累计折扣 return 最大值的 $Q^{EC}$ 代替 $Q$ ，这是一个表格型方法，使用 KNN 解决泛化性问题
- 仅适用与确定性环境，可以在早期大幅提升样本效率，但是学习后期效果不佳
【ICLR 2020】—— 【ERLAM】Episodic reinforcement learning with associative memory
- 作者将 replay buffer 中的轨迹变成图形式，这样就能沿着图进行价值传播。这里作者也计算了 MFEC 一样相同的 $Q^{EC}$ 价值，但不是直接用来优化策略，而是作为价值网络的正则项
…

5 可解释性

【ICLR 2021】—— 【ESP-DQN】Contrastive Explanations for Reinforcement Learning via Embedded Self Predictions
- RL agent 只能通过价值差解释动作偏好，这很不直观。作者希望让 RL agent 能像人类一样给出有语义信息的偏好解释。所以首先要设计一些手工特征，然后像计算价值函数一样将其变为未来的期望特征，称为 GVFs，再用一个组合网络组合这些 GVFs 得到价值函数
- 使用 Integrated gradient 方法将价值函数转换为 GVFs 的线性组合，这样就可以解释了，最后用 Minimal sufficient explaination 方法来化简这些解释
…

6 多智能体

【NIPS 2021】—— 【CoPO】Learning to Simulate SDP System with Coordinated Policy Optimization

7 探索策略

【Nature 2021】—— 【Go-Explore】First return, then explore

相关阅读:
Java泛型
[学习记录] 设计模式 1. 单例模式实现
ffmpeg命令分析-yuv封装mp4
第1章并发编程的挑战
Linux基本操作【下】
JavaScript 设计模式之观察者模式
极客天成RDMA分布式存储加速自动驾驶仿真建模
无涯教程-JavaScript - POWER函数
Docker：Elasticsearch安装配置IK分词器
pwn--realloc [CISCN 2019东南]PWN5

原文地址：https://blog.csdn.net/wxc971231/article/details/126744968