Reward-to-go:即折扣因子
γ
=
1
\gamma=1
γ=1,
G
t
=
R
^
t
=
r
t
+
r
t
+
1
+
…
+
r
T
G_t=\hat{R}_t=r_t+r_{t+1}+\ldots+r_T
Gt=R^t=rt+rt+1+…+rT,
T
T
T为episode的长度
通常为
A
^
t
\hat{A}_t
A^t引入baseline,以减小方差,提升训练稳定性
A
^
t
=
R
^
t
−
V
ϕ
k
\hat{A}_t=\hat{R}_t-V_{\phi_k}
A^t=R^t−Vϕk