把智能体与环境交互的记录(即经验)储存到 一个数组里,事后反复利用这些经验训练智能体。这个数组被称为经验回放数组(replay buffer)。
具体来说, 把智能体的轨迹划分成 ( s t , a t , r t , s t + 1 ) \left(s_t, a_t, r_t, s_{t+1}\right) (st,at,rt,st+1) 这样的四元组, 存入一个数组。需要人为指定数组的大小 (记作 b b b )。数组中只保留最近 b b b 条数据; 当数组存满之后, 删除掉最旧的数据。数组的大小 b b b 是个需要调的超参数, 会影响训练的结果。通常设置 b b b 为 1 0 5 ∼ 1 0 6 10^5 \sim 10^6 105∼106 。
在实践中,要等回放数组中有足够多的四元组时,才开始做经验回放更新DQN。
需要注意, 并非所有的强化学习方法都允许重复使用过去的经验。经验回放数组里的数据全都是用行为策略 (behavior policy) 控制智能体收集到的。在收集经验同时, 我们也在不断地改进策略。策略的变化导致收集经验时用的行为策略是过时的策略, 不同于当前我们想要更新的策略——即目标策略(target policy)。也就是说,经验回放数组中的经验通常是过时的行为策略收集的, 而我们真正想要学的目标策略不同于过时的行为策略。
有些强化学习方法允许行为策略不同于目标策略。这样的强化学习方法叫做异策略 (off-policy)。比如 Q \mathrm{Q} Q 学习、确定策略梯度 (DPG) 都属于异策略。由于它们允许行为策略不同于目标策略, 过时的行为策略收集到的经验可以被重复利用。经验回放适用于异策略。
优先经验回放给每个四元组一个权重, 然后根据权重做非均匀随机抽样。如果 DQN 对 ( s j , a j ) \left(s_j, a_j\right) (sj,aj) 的价值判断不准确, 即 Q ( s j , a j ; w ) Q\left(s_j, a_j ; \boldsymbol{w}\right) Q(sj,aj;w) 离 Q ⋆ ( s j , a j ) Q_{\star}\left(s_j, a_j\right) Q⋆(sj,aj) 较远,则四元组 ( s j , a j , r j , s j + 1 ) \left(s_j, a_j, r_j, s_{j+1}\right) (sj,aj,rj,sj+1) 应当有较高的权重。
因此, 要是
∣
Q
(
s
j
,
a
j
;
w
)
−
Q
⋆
(
s
j
,
a
j
)
∣
\left|Q\left(s_j, a_j ; \boldsymbol{w}\right)-Q_{\star}\left(s_j, a_j\right)\right|
∣Q(sj,aj;w)−Q⋆(sj,aj)∣ 较大, 则应该给样本
(
s
j
,
a
j
,
r
j
,
s
j
+
1
)
\left(s_j, a_j, r_j, s_{j+1}\right)
(sj,aj,rj,sj+1) 较高的权重。然而实际上我们不知道
Q
⋆
Q_{\star}
Q⋆, 因此无从得知
∣
Q
(
s
j
,
a
j
;
w
)
−
Q
⋆
(
s
j
,
a
j
)
∣
\left|Q\left(s_j, a_j ; \boldsymbol{w}\right)-Q_{\star}\left(s_j, a_j\right)\right|
∣Q(sj,aj;w)−Q⋆(sj,aj)∣ 。不妨把它替换成 TD 误差。回忆一下, TD 误差的定义是:
δ
j
≜
Q
(
s
j
,
a
j
;
w
now
)
−
[
r
t
+
γ
⋅
max
a
∈
A
Q
(
s
j
+
1
,
a
;
w
now
)
]
⏟
即 TD 目标
.
\delta_j \triangleq Q\left(s_j, a_j ; \boldsymbol{w}_{\text {now }}\right)-\underbrace{\left[r_t+\gamma \cdot \max _{a \in \mathcal{A}} Q\left(s_{j+1}, a ; \boldsymbol{w}_{\text {now }}\right)\right]}_{\text {即 TD 目标 }} .
δj≜Q(sj,aj;wnow )−即 TD 目标
[rt+γ⋅a∈AmaxQ(sj+1,a;wnow )].
如果 TD 误差的绝对值 ∣ δ j ∣ \left|\delta_j\right| ∣δj∣ 大, 说明 DQN 对 ( s j , a j ) \left(s_j, a_j\right) (sj,aj) 的真实价值的评估不准确, 那么应该给 ( s j , a j , r j , s j + 1 ) \left(s_j, a_j, r_j, s_{j+1}\right) (sj,aj,rj,sj+1) 设置较高的权重。
优先经验回放对数组里的样本做非均匀抽样。四元组
(
s
j
,
a
j
,
r
j
,
s
j
+
1
)
\left(s_j, a_j, r_j, s_{j+1}\right)
(sj,aj,rj,sj+1) 的权重是 TD 误差的绝对值
∣
δ
j
∣
\left|\delta_j\right|
∣δj∣ 。有两种方法设置抽样概率。一种抽样概率是:
p
j
∝
∣
δ
j
∣
+
ϵ
.
p_j \propto\left|\delta_j\right|+\epsilon .
pj∝∣δj∣+ϵ.
此处的
ϵ
\epsilon
ϵ 是个很小的数, 防止抽样概率接近零, 用于保证所有样本都以非零的概率被抽到。另一种抽样方式先对
∣
δ
j
∣
\left|\delta_j\right|
∣δj∣ 做降序排列, 然后计算
p
j
∝
1
rank
(
j
)
.
p_j \propto \frac{1}{\operatorname{rank}(j)} .
pj∝rank(j)1.
此处的 rank ( j ) \operatorname{rank}(j) rank(j) 是 ∣ δ j ∣ \left|\delta_j\right| ∣δj∣ 的序号。大的 ∣ δ j ∣ \left|\delta_j\right| ∣δj∣ 的序号小, 小的 ∣ δ j ∣ \left|\delta_j\right| ∣δj∣ 的序号大。两种方式的原理是一样的, ∣ δ j ∣ \left|\delta_j\right| ∣δj∣ 大的样本被抽样到的概率大。
优先经验回放做非均匀抽样, 四元组
(
s
j
,
a
j
,
r
j
,
s
j
+
1
)
\left(s_j, a_j, r_j, s_{j+1}\right)
(sj,aj,rj,sj+1) 被抽到的概率是
p
j
p_j
pj 。对于那些更重要的样本,被抽中的次数更多,参数更新的次数越多,为使更新效果更好可以适当减小学习率,适当减小学习率可以使得更新方向更精准,同时也使样本的被抽中得概率
p
j
p_j
pj不会剧烈下降,保证更新次数。可以这样设置学习率:
α
j
=
α
(
b
⋅
p
j
)
β
,
\alpha_j=\frac{\alpha}{\left(b \cdot p_j\right)^\beta},
αj=(b⋅pj)βα,
$\text { 此处的 } b \text { 是经验回放数组中样本的总数, } \beta \in(0,1) \text { 是个需要调的超参数 } $
设
x
1
,
⋯
,
x
d
x_1, \cdots, x_d
x1,⋯,xd 为任意
d
d
d 个实数。往
x
1
x_1
x1,
⋯
,
x
d
\cdots, x_d
⋯,xd 中加入任意均值为零的随机噪声, 得到
Z
1
,
⋯
,
Z
d
Z_1, \cdots, Z_d
Z1,⋯,Zd, 它们是随机变量, 随机性来源于随机噪声。我们有如下不等式
E
[
max
(
Z
1
,
⋯
,
Z
d
)
]
≥
max
(
x
1
,
⋯
,
x
d
)
\mathbb{E}\left[\max \left(Z_1, \cdots, Z_d\right)\right] \geq \max \left(x_1, \cdots, x_d\right)
E[max(Z1,⋯,Zd)]≥max(x1,⋯,xd)
proof:利用琴生不等式,我们有
E
[
f
(
x
)
]
≥
f
(
E
[
x
]
)
\Bbb E[f(x)]\geq f(\Bbb E[x])
E[f(x)]≥f(E[x]),如果
f
(
x
)
f(x)
f(x)是一个凸函数。而
max
(
x
1
,
x
2
,
…
,
x
d
)
\text{max}(x_1,x_2,\ldots,x_d)
max(x1,x2,…,xd)显然是凸的。
这个不等式意味着先加入均值为零的噪声,然后求最大值,会产生高估。
假设对于所有的动作
a
∈
A
a \in \mathcal{A}
a∈A 和状态
s
∈
S
,
D
Q
N
s \in \mathcal{S}, \mathrm{DQN}
s∈S,DQN 的输出是真实价值
Q
⋆
(
s
,
a
)
Q_{\star}(s, a)
Q⋆(s,a) 加上均值为零的随机噪声
ϵ
\epsilon
ϵ :
Q
(
s
,
a
;
w
)
=
Q
⋆
(
s
,
a
)
+
ϵ
.
Q(s, a ; \boldsymbol{w})=Q_{\star}(s, a)+\epsilon .
Q(s,a;w)=Q⋆(s,a)+ϵ.
显然
Q
(
s
,
a
;
w
)
Q(s, a ; \boldsymbol{w})
Q(s,a;w) 是对真实价值
Q
⋆
(
s
,
a
)
Q_{\star}(s, a)
Q⋆(s,a) 的无偏估计。有这个不等式:
E
ϵ
[
max
a
∈
A
Q
(
s
,
a
;
w
)
]
≥
max
a
∈
A
Q
⋆
(
s
,
a
)
.
\mathbb{E}_\epsilon\left[\max _{a \in \mathcal{A}} Q(s, a ; \boldsymbol{w})\right] \geq \max _{a \in \mathcal{A}} Q_{\star}(s, a) .
Eϵ[a∈AmaxQ(s,a;w)]≥a∈AmaxQ⋆(s,a).
公式说明哪怕 DQN 是对真实价值的无偏估计, 但是如果求最大化, DQN 就会高估真实价值。复习一下, TD 目标是这样算出来的:
y
^
j
=
r
j
+
γ
⋅
max
a
∈
A
Q
(
s
j
+
1
,
a
;
w
)
⏟
高估
max
a
∈
A
Q
⋆
(
s
j
+
1
,
a
)
.
\widehat{y}_j=r_j+\gamma \cdot \underbrace{\max _{a \in \mathcal{A}} Q\left(s_{j+1}, a ; \boldsymbol{w}\right)}_{\text {高估 } \max _{a \in \mathcal{A}} Q_{\star}\left(s_{j+1}, a\right)} .
y
j=rj+γ⋅高估 maxa∈AQ⋆(sj+1,a)
a∈AmaxQ(sj+1,a;w).
这说明 TD 目标 y ^ j \widehat{y}_j y j 通常是对真实价值 Q ⋆ ( s j , a j ) Q_{\star}\left(s_j, a_j\right) Q⋆(sj,aj) 的高估。TD 算法鼓励 Q ( s j , a j ; w ) Q\left(s_j, a_j ; \boldsymbol{w}\right) Q(sj,aj;w) 接近 T D \mathrm{TD} TD 目标 y ^ j \widehat{y}_j y j, 这会导致 Q ( s j , a j ; w ) Q\left(s_j, a_j ; \boldsymbol{w}\right) Q(sj,aj;w) 高估真实价值 Q ⋆ ( s j , a j ) Q_{\star}\left(s_j, a_j\right) Q⋆(sj,aj) 。高估再通过自举的方式传给下一项。
想要避免DQN的高估,要么切断自举,要么避免最大化造成高估
想要切断自举,可以用另一个神经网络计算TD目标,而不是用DQN自己计算TD目标。另一个神经网络被称作目标网络(target network)。把目标网络记作:
Q
(
s
,
a
;
w
−
)
Q\left(s, a ; \boldsymbol{w}^{-}\right)
Q(s,a;w−)
设DQN和目标网络当前的参数分别为
w
n
o
w
w_{now}
wnow和
w
n
o
w
−
w^−_{now}
wnow−
执行下面的步骤对参数做一次更新:
w new − ← τ ⋅ w new + ( 1 − τ ) ⋅ w now − . \boldsymbol{w}_{\text {new }}^{-} \leftarrow \tau \cdot \boldsymbol{w}_{\text {new }}+(1-\tau) \cdot \boldsymbol{w}_{\text {now }}^{-} . wnew −←τ⋅wnew +(1−τ)⋅wnow −.
双Q学习总体上可以认为将选则与求值进行了解耦操作,缓解了高估问题
回顾一下
Q
\mathrm{Q}
Q 学习算法中的 TD 目标:
y
^
j
=
r
j
+
γ
⋅
max
a
∈
A
Q
(
s
j
+
1
,
a
;
w
)
.
\widehat{y}_j=r_j+\gamma \cdot \max _{a \in \mathcal{A}} Q\left(s_{j+1}, a ; \boldsymbol{w}\right) .
y
j=rj+γ⋅a∈AmaxQ(sj+1,a;w).
不妨把最大化拆成两步:
以上是原始的 Q \mathrm{Q} Q 学习算法, 选择和求值都用 D Q N \mathrm{DQN} DQN 。上一节改进了 Q \mathrm{Q} Q 学习, 选择和求值都用目标网络:
本节介绍双 Q \mathrm{Q} Q 学习, 第一步的选择用 DQN, 第二步的求值用目标网络:
不难证明出这个不等式:
Q
(
s
j
+
1
,
a
⋆
;
w
−
)
⏟
双
Q
学习
≤
max
a
∈
A
Q
(
s
j
+
1
,
a
;
w
−
)
⏟
用目标网络的
Q
学习
.
\underbrace{Q\left(s_{j+1}, a^{\star} ; \boldsymbol{w}^{-}\right)}_{\text {双 } \mathrm{Q} \text { 学习 }} \leq \underbrace{\max _{a \in \mathcal{A}} Q\left(s_{j+1}, a ; \boldsymbol{w}^{-}\right)}_{\text {用目标网络的 } \mathrm{Q} \text { 学习 }} .
双 Q 学习
Q(sj+1,a⋆;w−)≤用目标网络的 Q 学习
a∈AmaxQ(sj+1,a;w−).
因此,
y
~
t
⏟
双
Q
学习
≤
y
~
t
−
⏟
用目标网络的
Q
学习
.
\underbrace{\tilde{y}_t}_{\text {双 } \mathrm{Q} \text { 学习 }} \leq \underbrace{\widetilde{y}_t^{-}}_{\text {用目标网络的 } \mathrm{Q} \text { 学习 }} .
双 Q 学习
y~t≤用目标网络的 Q 学习
y
t−.
这个公式说明双 Q \mathrm{Q} Q 学习得到的 TD 目标更小。也就是说, 与用目标网络的 Q \mathrm{Q} Q 学习相比,双 Q 学习缓解了高估。