Meta-World：多任务、持续学习、终身学习、元学习、强化学习的基准和评估

Meta-World：多任务、持续学习、终身学习、元学习、强化学习的基准和评估
1.背景
- 论文链接，斯坦福大学、加州大学伯克利分校、哥伦比亚大学、南加州大学、谷歌联合完成，发表于PMLR2020
- paper with code网页链接
- 项目主页链接
- 源代码链接
2.基准相关的持续学习论文
3.关键内容速览
- 出发点：当前元强化学习的测试基准过于简单，甚至会将不同运行速度当作不同任务，使得学习到的元学习算法缺乏泛化能力
- 关键贡献：
  - 提供了开源的、包含50种不同的Sawyer机械臂操作任务的模拟基准
  - 在环境中实现了当时最先进的几种元强化学习和多任务学习算法，并发现它们很难学习基准中的多个任务
4.任务可行性
- 50中操作任务相互独立，但表现出一定的相似结构，任务共享相同的机器人、工作空间和动作空间
5.操作任务空间
- 一个任务由3元组组成（激励函数、初始物体位置、目标位置）
- 加入初始物体位置、目标位置，加强不同任务间的泛化能力（如：只关注这两个参数，那么关上抽屉和推动物块两种任务间几乎没有差别）
- 使用同样的机械臂，对不同的对象、对象间不同连接方式、对象不同关节进行交互
- 通过达到、推动、抓取的不同组合来完成不同任务（如：开门：旋转关节抓住并推拉物体；打开抽屉：移动关节抓住并推拉物体）
- 基于Multiworld套件和OpenAI Gym套件下的MuJoCo
6.动作空间
- 二元组（末端执行器的三维坐标、夹持器上归一化后介于-1到1之间的扭矩）
- 操作的对象：
  - 一个对象，目标位置可变
  - 两个对象，目标位置固定
7.观测空间
- 6元组（末端执行器的三维笛卡尔坐标、归一化后的夹持器张开程度、第一个对象的三维坐标：一个有关第一个对象的四元组、第二个对象的三维坐标：一个有关第二个对象的四元组、环境中预先观测的信息、目标的三维位置）
- 一直是39维，如果有的维度对应信息任务里不存在，置为零
8.奖赏函数
- 设计原则
  - 既要能处理单任务，又要能处理多任务
  - 避免因为奖赏不同，而造成任务偏好
- 采用组件化的奖赏函数，分块评估每个任务中的动作原语（如一个任务包括到达、抓取和放置，则分别评估这三种动作，再综合）
- 所有任务有着相同量级的奖赏函数（0到10，10总是对应着正在进行的任务）
9.评估协议
- ML系列偏重快速泛化到新任务的能力
- MT系列偏重学习多个任务的能力
- ML1：
  - 一项任务，50个初始对象和目标位置，观测空间中没给出目标位置
  - 小样本泛化，为了验证以往的元强化学习算法可以在同样的任务下泛化到不同的对象和目标位置
  - 独立测试到达、推动、抓放
- MT1：
  - 一项任务，50个初始对象和目标位置，观测空间给出了目标位置
  - 目标位置是一个固定的集合，重点考察多任务学习，而不是泛化
  - 用来验证以往的多任务算法在大型相关任务上的学习能力
- MT10：
  - 10项任务，每项任务50个初始对象和目标位置
  - 任务包括：到达、推动、抓放、开门、开抽屉、关抽屉、按下按钮、插入钉子、开窗户、开箱子
  - 提供任务ID来帮助识别任务
  - 对象位置和目标位置是固定的，重点考察多任务学习，而不是泛化
  - 快速学习新任务的基础是能够同时学会多个任务，所以此评价指标不考虑泛化
  - 验证算法同时学习不同任务的能力
- MT50：
  - 与MT10相似，只是将任务扩展到了50个（Meta-World中全部任务）
- ML10：
  - 10种任务用来训练，5种任务用来测试
  - 不提供任务ID，需要算法自行识别任务
  - 随机设置对象和目标位置
  - 验证算法快速泛化到新任务的能力
- ML45：
  - 与ML10相似，只是用来训练的任务扩展到45种
- 成功指标：操作物体的最终位姿与目标位姿之间的间距小于设定阈值（奖惩函数不能很好的衡量任务的完成度，所以设计了这个可解释性强的成功指标）
10.过往算法验证
- 验证算法列表：
  - PPO：multi-task proximal policy
    optimization，多任务策略梯度算法
  - TRPO：multi-task trust region policy optimization，多任务在线策略梯度算法
  - SAC：multi-task soft actor-critic，多任务离线演员评论家算法
  - 在线版本TE：task embeddings，多任务参数化策略参数，共享嵌入技能空间
  - RL2：在线元强化学习算法，在一个任务种训练一个具有隐状态的GRU网络，基础网络PPO
  - MAML：model-agnostic meta-
    learning，在线基于梯度的元强化学习算法，将梯度策略嵌入到元优化中，基础网络PPO
  - PEARL：probabilistic embeddings
    for actor-critic RL，离线演员评论家元强化学习算法，将经验编码成任务的概率嵌入，并提供给演员和评论家
- 对应的强化学习库Garage：T. garage contributors. Garage: A toolkit for reproducible reinforcement learning research.
  https://github.com/rlworkgroup/garage, 2021.
- 实验效果：
  - 多任务：
    MT10：SAC平均成功率68%，PPO、TRPO约为30%
    MT50：均处于35-38%水平
  - 迁移：
    ML10：MAML：35%，RL2：31%，PEAEL：13%
    ML45：MAML：39.9%，RL2：33.3%
- 结论：这些算法一定的泛化能力，表明本基准是切实可行的，而这些算法的表现并不好，说明相关领域还有许多值得研究的，来实现更广泛的任务泛化和多任务学习
11.基准的未来改进
- 现实中很难直接获取对象的位姿，所以需要考虑图像感知和稀疏奖赏
  - 稀疏奖赏可以从成功指标中生成
  - 代码里面也支持图像感知，但要注意不要让算法去过分地学习图像，这样会降低泛化能力
- 需要加入更长程的技能操作
- 手动重置环境时会影响，尽可能减少学习过程中的复位
- 现实生活中在线学习更常见，在线元学习评判标准参见C. Finn, A. Rajeswaran, S. Kakade, and S. Levine. Online meta-learning. ICML, 2019.
  15，里面实现了机器人写数字
相关阅读:
docker部署Jenkins
Web3：价值投资的范式转移
 go泛型教程
 linux文件组 avc: denied { dac_read_search } for capability=2
java学习day8（Java基础）static关键字和继承
 产品经理必备技能：如何快速锁定种子用户群体？
Ban or Pick, What‘s the Trick
专业软件测评中心：关于软件性能测试的实用建议
 阻塞队列--线程安全问题
 力扣 095. 最长公共子序列（C语言+动态规划）
原文地址：https://blog.csdn.net/weixin_53610475/article/details/127441074

1.背景

2.基准相关的持续学习论文

3.关键内容速览

4.任务可行性

5.操作任务空间

6.动作空间

7.观测空间

8.奖赏函数

9.评估协议

10.过往算法验证

11.基准的未来改进