High Dimensional Continuous Control Using Generalized Advantage Estimation

策略梯度方法在强化学习中是一种很有吸引力的方法，因为它们可以直接优化累积奖励，并且可以直接与非线性函数逼近器(如神经网络)一起使用。两个主要挑战是通常需要大量的样本，以及尽管传入的数据是非平稳性，但仍难以获得稳定和稳步的改进。本文通过使用价值函数来解决第一个挑战，以一些偏差为代价，通过类似于TD(λ)的优势函数的指数加权估计来大幅减少策略梯度估计的方差。本文通过对由神经网络表示的策略和值函数使用信赖域优化过程来解决第二个挑战。该方法在高度挑战性的3D运动任务、学习双足和四足模拟机器人的跑步步态，以及学习使双足动物从一开始躺在地面上站起来的策略方面产生了强大的经验结果。与之前一大批使用手工策略表示的工作相比，所提出的神经网络策略直接从原始运动学映射到关节力矩。所提出算法是完全无模型的，在3D两足动物上学习任务所需的模拟经验量相当于1-2周的实时时间

2 PRELIMINARIES

3 ADVANTAGE FUNCTION ESTIMATION

5 VALUE FUNCTION ESTIMATION

有很多不同的方法可以用来估计价值函数(参见Bertsekas(2012))。当使用非线性函数逼近器来表示值函数时，最简单的方法是解决非线性回归问题

对于本工作中的实验，我们使用信任区域法来优化分批优化过程的每一次迭代的值函数。信任区域可以帮助我们避免对最近一批数据的过拟合

7 DISCUSSION

策略梯度方法通过提供无偏梯度估计，提供了一种将强化学习减少到随机梯度下降的方法。然而，到目前为止，它们在解决困难的控制问题方面的成功是有限的，主要是由于它们的高样本复杂度。我们已经讨论过，减小方差的关键是获得对优势函数的良好估计

本文对优势函数估计问题提供了一个直观但非正式的分析，并证明了广义优势估计器，它有两个参数γ和λ，用于调整偏差-方差权衡。我们描述了如何将这种思想与信赖域策略优化以及优化以神经网络为代表的值函数的信赖域算法相结合。结合这些技术，能够学习解决以前通用强化学习方法无法解决的困难控制任务

在并行工作中，研究人员一直在开发策略梯度方法，涉及对连续值行动的微分(Lillicrap等人，2015;Heess et al.， 2015)。虽然我们从经验上发现一步回归(λ = 0)会导致过大的偏差和较差的性能，但这些论文表明，在适当调整的情况下，这种方法是可以工作的。然而，请注意，这些论文考虑的控制问题的状态和动作空间比这里考虑的要低得多。两类方法之间的比较将有助于今后的工作

相关阅读:
生成网络之Flow-based Generative Model
关于放大器失真的原因你了解多少呢？
智慧城市-疫情流调系列4-GlobalPointer
二分查找算法介绍（边界值、循环条件、值的变化、二分查找的原理、异常处理）
设计模式---适配器模式
Istio服务网格进阶⑤：Istio服务网格的流量管理之服务熔断
10道不得不会的Docker面试题
c语言数据结构排序（二）
无法打开包括文件: “libxml/xpath.h”: No such file or directory
图片怎么合成gif动图？操作步骤详解

原文地址：https://blog.csdn.net/zj_18706809267/article/details/126689184