码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 个人强化学习论文导航


    • 这里整理我笔记过的强化学习论文
    • 持续更新中…

    • 关于问题范数的介绍
      1. 图解 RL/IL 问题范式(On-Policy、Off-policy、Offline/Batch、IL…)
      2. Offline/Batch RL简介

    文章目录

    • 1 RL 经典
    • 2 经验回放 Experience Replay
    • 3 离线强化学习 Offline RL
    • 4 情节控制 Episodic Control
    • 5 可解释性
    • 6 多智能体
    • 7 探索策略

    1 RL 经典

    1. 【Nature 2015】 —— 【DQN】Human-level control through deep reinforcement learning
      • 使用 Q 价值网络替代过去 Q-learning 中的 Q 表格,loss 为关于 TD error 的 MSE 损失,使用了均匀经验重放
    2. …

    2 经验回放 Experience Replay

    1. 【NIPS 2020】—— 【LAP & PAL】An Equivalence between Loss Functions and Non-Uniform Sampling in Exp Replay

      • 这是一篇偏向理论分析的文章,主要结论为:经验回放时 “真正的非均匀采样” 和另一个 “使用不同损失的均匀采样方案” 从梯度角度看是等价的,并给出了转换方法
      • 作者用考察估计价值常用的 PER + MSE loss 方案,发现其等价均匀重放损失中 TD error 项的幂次超过 2,因此优化过程会偏向异常点(类似最小二乘法受离群点影响)
      • 最后,作者提出了一种 PER 的改进方案 LAP,以及等价的均匀重放损失 PAL
    2. 【ICLR 2016】—— 【PER】Prioritized Experience Replay

      • 非均匀经验重放领域经典文章,TD error 绝对值代表 agent 面对一个新 ( s , a ) (s,a) (s,a) pair 的 “惊讶程度”,直接用 transition TD error 绝对值的大小或排名进行加权重放
    3. 【NIPS 2020】—— 【DisCor】Corrective Feedback in RL via Distribution Correction

      • 作者注意到,来自 bootstrap 的 TD target 是渐进准确的,因此训练早期给出的目标并不准确,DRL 中引入价值网络会使这个问题更加严重,导致 RL 的价值学习缺乏 “纠正性反馈”,Q 价值估计不准。作者以最小化全局 Q 误差为目标解优化问题,算出一个采样加权策略,得到的结果也很符合直觉:应该强调那些当前估计更精确(即当前 Q ( s , a ) Q(s,a) Q(s,a) 更靠近 Q ∗ ( s , a ) Q^*(s,a) Q∗(s,a))的 transition
      • 结果中出现了很多无法直接获得的项,作者做了大量放松近似
    4. 【PMLR 2022】—— 【LFIW】Experience Replay with Likelihood-free Importance Weights

      • 作者认为重放样本时应该多关注那些当前策略访问更频繁的 ( s , a ) (s,a) (s,a),因为那些目前几乎访问不到的 pair 对于更新当前策略也几乎没有意义。因此作者设计的重放权重就是当前策略和 replay buffer 中 transition 分布的重要性采样比,使用快慢缓冲区的方法来估计其值
    5. 【NIPS 2021】—— 【ReMERN & ReMERT】Regret Minimization Exp Replay in Off-Policy RL

      • 作者直接以最小化后悔(最大化累计折扣回报)为目标解优化问题,算出一个采样加权策略,注意这是 RL 方法的终极目标,得到的加权方案应该是无偏的
      • 解出的结果说明:事后 TD error越大、on-policy 性质越强、Q 值估计越准确的 transition,应在抽样过程中赋予更高的权重。注意到这些指标分别对应了 PER、LFIW、DisCor 三篇文章,把过去的方法统一起来了
    6. …

    3 离线强化学习 Offline RL

    1. 【NIPS 2021】 —— 【COIL】Curriculum Offline Imitating Learning

      • 一种 IL-based 的 Offline RL 方法。作者发现,过去从 random 策略开始直接对混合数据集进行 BC,不得不使用很多差的 transition 扩展数据集覆盖的 S × A \mathcal{S\times A} S×A 空间,导致最好的那些 transition 的作用被抵消掉
      • 作者认为可以构造一系列 BC 课程,令每个迭代课程中的初始策略 π 0 \pi_0 π0​ 和模仿对象 π b \pi_b πb​ 接近,这时级联错误问题可以近似忽略,那些略优于每个 BC 课程初始策略 π 0 \pi_0 π0​ 的 transition 能最大限度地发挥作用,高效地将 π 0 \pi_0 π0​ 提升为接近 π b \pi_b πb​ 的 π \pi π,最终学得策略的性能可以接近混合数据集中最好的行为策略
      • COIL 每轮迭代根据 “相似度” 和 “性能” 两个条件从 Offline dataset 中选出一个候选轨迹经验池作为模拟目标,通过 BC 进行学习,策略更新之后,从 Offline dataset 中清除使用过的轨迹,并用 Return Filter 进一步过滤掉性能不佳的轨迹,直到 dataset 空时自当停止
    2. 【NIPS 2020】—— 【BAIL】Best-Action Imitation Learning for Batch Deep Reinforcement Learning

      • 一种 IL-based 的 Offline RL 方法。想法很直接,就是挑出 offline dataset 里 return 最好(最接近 V ∗ ( s ) V^*(s) V∗(s))的那部分 ( s , a ) (s,a) (s,a) 样本做模仿学习。作者训练了一个上包络网络,估计出各个状态 s s s 对应 return 的上极限,然后选出最接近这个极限的那部分 transition
      • 由于 offline dataset 中轨迹长度有限,return 可能不准确,作者设计了一个启发式的方法对轨迹进行拼接,提高估计数据集中 ( s , a ) (s,a) (s,a) pair return 的精度
    3. …

    4 情节控制 Episodic Control

    1. 【CoRR 2016】—— 【MFEC】Model Free Episodic Control

      • Episodic Control 领域的第一篇文章,通过改变 RL 中价值估计的方式来提高样本效率。传统 Q-learning 等方法的 Q Q Q 价值代表未来累计折扣 return 的期望,需要基于 MC 进行估计,效率很低。作者提出使用代表未来累计折扣 return 最大值的 Q E C Q^{EC} QEC 代替 Q Q Q,这是一个表格型方法,使用 KNN 解决泛化性问题
      • 仅适用与确定性环境,可以在早期大幅提升样本效率,但是学习后期效果不佳
    2. 【ICLR 2020】—— 【ERLAM】Episodic reinforcement learning with associative memory

      • 作者将 replay buffer 中的轨迹变成图形式,这样就能沿着图进行价值传播。这里作者也计算了 MFEC 一样相同的 Q E C Q^{EC} QEC 价值,但不是直接用来优化策略,而是作为价值网络的正则项
    3. …

    5 可解释性

    1. 【ICLR 2021】—— 【ESP-DQN】Contrastive Explanations for Reinforcement Learning via Embedded Self Predictions

      • RL agent 只能通过价值差解释动作偏好,这很不直观。作者希望让 RL agent 能像人类一样给出有语义信息的偏好解释。所以首先要设计一些手工特征,然后像计算价值函数一样将其变为未来的期望特征,称为 GVFs,再用一个组合网络组合这些 GVFs 得到价值函数
      • 使用 Integrated gradient 方法将价值函数转换为 GVFs 的线性组合,这样就可以解释了,最后用 Minimal sufficient explaination 方法来化简这些解释
    2. …

    6 多智能体

    1. 【NIPS 2021】—— 【CoPO】Learning to Simulate SDP System with Coordinated Policy Optimization

    7 探索策略

    1. 【Nature 2021】—— 【Go-Explore】First return, then explore
  • 相关阅读:
    Java泛型
    [学习记录] 设计模式 1. 单例模式实现
    ffmpeg命令分析-yuv封装mp4
    第1章 并发编程的挑战
    Linux基本操作【下】
    JavaScript 设计模式之观察者模式
    极客天成RDMA分布式存储加速自动驾驶仿真建模
    无涯教程-JavaScript - POWER函数
    Docker:Elasticsearch安装配置IK分词器
    pwn--realloc [CISCN 2019东南]PWN5
  • 原文地址:https://blog.csdn.net/wxc971231/article/details/126744968
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号