我们介绍了在线决策变压器(ODT),这是一种RL的学习框架,它将离线预训练与在线微调相结合,以实现样本高效的策略优化。我们的框架建立在先前为离线RL引入的决策变换器(DT)(Chen et al,2021)架构的基础上,特别适用于在线交互成本高昂的场景,这需要离线预训练和样本有效的微调。我们确定了与DTs不兼容的几个关键缺点,并对其进行了纠正,从而为我们的整体渠道带来了卓越的性能。
离线RL与在线微调。虽然ODT源于与传统RL方法不同的视角,但现有的许多工作都集中在对给定离线数据集进行预训练的相同范例上,并在在线环境中进行微调。Nair等人(2020)表明,将离线或非策略性RL方法应用于离线预培训和在线微调制度往往无助于甚至阻碍绩效。这种政策外方法的不良表现可归因于政策外引导错误积累(Munos,20032005;Farahmand等,2010;Kumar等,2019)。在离线RL方法中,在线微调制度中的不良表现可以通过过度保守来解释,这在离线制度中是必要的,以防止价值高估超出分配状态。Nair等人(2020)首次提出了一种适用于离线和在线培训制度的算法。最近的工作(Kostrikov et al。,2021a)也提出了一种基于期望的离线RL隐式Q学习算法,该算法也显示出强大的在线微调性能,因为该策略是通过避免分发外行为的行为克隆步骤提取的动作。
Lee等人(2021)通过平衡重放方案和一系列功能来解决离线在线设置问题,以在离线培训期间保持保守主义。Lu等人(2021)改进了AWAC(Nair et al。,2020),它在在线微调阶段表现出崩溃,在在线阶段纳入了积极的抽样和探索。我们还发现积极的抽样和探索是良好的在线微调的关键,但是我们将展示ODT中这些特征是如何自然发生的,从而导致一种简单的端到端方法,可以自动适应离线和在线设置。
预赛
我们假设我们的环境可以建模为马尔可夫决策过程 (MDP),可以描述为
M
=
<
S
,
A
,
p
,
P
,
R
,
γ
>
M=M=<S,A,p,P,R,γ>,其中
S
S
S 是状态空间,
A
A
A 是动作空间,
P
(
s
t
+
1
∣
s
t
,
a
t
)
P(s_{t+1}|s_t,a_t)
P(st+1∣st,at) 是转换的概率分布,
R
(
s
t
,
a
t
)
R(s_t,a_t)
R(st,at) 是奖励函数,
γ
γ
γ 是折扣因子(Bellman,1957)。 代理从从固定分布
p
(
s
1
)
p(s_1)
p(s1) 采样的初始状态
s
1
s_1
s1 开始,然后在每个时间步
t
t
t 它从状态
s
t
∈
S
s_t \in S
st∈S 在
a
t
∈
A
a_t \in A
at∈A 采取行动并移动到下一个状态
s
t
+
1
P
(
⋅
∣
s
t
,
a
t
)
s_{t+1}~P(\cdot |s_t, a_t)
st+1P(⋅∣st,at)。 在每个动作之后,代理都会收到一个确定性的奖励
r
t
=
R
(
s
t
,
a
t
)
r_t=R(s_t,a_t)
rt=R(st,at)。 请注意,我们的算法也直接适用于部分可观察马尔可夫决策过程 (POMDP),但我们使用 MDP 框架以便于阐述。
3.1 设置和符号
我们对决策转换器 (DT) 的在线微调感兴趣(Chen 等人,2020 年),其中代理将可以访问非平稳训练数据分布
T
T
T。最初,在预训练期间,
T
T
T 对应于线数据分布
T
o
f
f
l
i
n
e
T_{offline}
Toffline,并通过离线数据集
T
o
f
f
l
i
n
e
T_{offline}
Toffline 访问。 在微调期间,它通过重播缓冲区
T
r
e
p
l
a
y
T_{replay}
Treplay 访问。 令
τ
τ
τ 表示轨迹并令
∣
τ
∣
|τ |
∣τ∣ 表示它的长度。 轨迹
τ
τ
τ 在时间步长
t
t
t 的返回 (RTG),gt “ř|τ|t1“trt1 ,是该时间步长的未来奖励总和。 让“ pa1, . . . , a|τ|q, s “ ps1, . . . , s|τ|q 和 g “ pg1, . . . , g|τ|q 分别表示 τ 的动作序列、状态和 RTG。
RTG 调节。 ODT 需要一个超参数,初始 RTG
g
o
n
l
i
n
e
g_{online}
gonline,用于收集额外的在线数据(参见算法 1 的第 4 行)。 此前,Chen 等人 (2021) 表明,离线 DT 的实际评估回报与经验上的初始 RTG 具有很强的相关性,并且通常可以推断出超过离线数据集中观察到的最大回报的 RTG 值。 对于 ODT,我们发现最好将此超参数设置为专家回报的一个小的、固定的比例(在我们的实验中设置为 2)。 我们还试验了更大的值以及随时间变化的课程(例如,离线和在线数据集中最佳评估回报的分位数),但我们发现这些相对于固定的、缩放的 RTG 而言是次优的。
抽样策略。 与 DT 类似,算法 2 使用两步采样过程来确保重放缓冲区 Treplay 中长度为 K 的子轨迹被均匀采样。 我们首先以与其长度成正比的概率采样单个轨迹,然后统一采样长度为 K 的子轨迹。对于具有非负密集奖励的环境,我们的采样策略类似于重要性采样。 在这些情况下,轨迹的长度与其返回高度相关,正如我们在附录 F 中进一步强调的那样。