TD3算法
全称Twin Delayed DDPG,是对DDPG算法的继承、发展和改进,论文
改进如下:
-
T
w
i
n
\mathcal{T}win
Twin:使用了两个critic来评估actor的动作价值,对应两个critic target,一个actor target,因此总共有6个神经网络。
-
D
e
l
a
y
e
d
\mathcal{D} elayed
Delayed:critic参数更新几次之后,才更新actor参数,并把参数同步给各自的target
- 使用较小的
Q
t
a
r
g
e
t
Q_{target}
Qtarget值更新critic参数,这是为了防止critic "评分"过高,使得actor “骄傲”
算法伪代码
