参数化动作空间说的就是一个离散动作带有一个向量化的参数。在每个决策步,一个智能体需要决策哪个动作去执行,并且这个动作带哪个参数去执行。
提出Q-PAMDP
算法,交替学习离散动作和连续动作。那么对于在状态
s
s
s下选择某个参数化动作的概率就可以表示为
π
(
a
,
x
∣
s
)
\pi(a,x|s)
π(a,x∣s)。对于离散动作的选择可以表示为
π
d
(
a
∣
s
)
\pi^{d}(a|s)
πd(a∣s),对于动作参数的选择可以表示为
π
a
(
x
∣
s
)
\pi^{a}(x|s)
πa(x∣s),整个策略的概率可以表示为:
π ( a , x ∣ s ) = π d ( a ∣ s ) π a ( x ∣ s ) \pi(a,x|s) = \pi^{d}(a|s)\pi^{a}(x|s) π(a,x∣s)=πd(a∣s)πa(x∣s)
选择离散动作的策略参数用 w w w表示,则为 π w d ( a ∣ s ) \pi_{w}^{d}(a|s) πwd(a∣s),参数化动作策略用一个参数集合表示 θ \theta θ,定义为 π θ a ( x ∣ s ) \pi_{\theta}^{a}(x|s) πθa(x∣s),这个参数化集合可以表示为 θ = [ θ a 1 , ⋯ , θ a k ] \theta = [\theta_{a_{1}}, \cdots, \theta_{a_{k}}] θ=[θa1,⋯,θak]。
想要优化参数,第一种方式就是直接优化 θ \theta θ和 w w w两个参数:
J ( θ , ω ) = E s 0 ∼ D [ V π Θ ( s 0 ) ] J(\theta, \omega)=\mathbb{E}_{s_{0} \sim D}\left[V^{\pi_{\Theta}}\left(s_{0}\right)\right] J(θ,ω)=Es0∼D[VπΘ(s0)]
第二种方式是交替更新二者,固定 θ \theta θ的时候可以优化出 w w w参数:
W ( θ ) = arg max ω J ( θ , ω ) = ω θ ∗ W(\theta)=\arg \max _{\omega} J(\theta, \omega)=\omega_{\theta}^{*} W(θ)=argωmaxJ(θ,ω)=ωθ∗
之后固定 w w w优化 θ \theta θ参数:
J
ω
(
θ
)
=
J
(
θ
,
ω
)
H
(
θ
)
=
J
(
θ
,
W
(
θ
)
)
Jω(θ)=J(θ,ω)H(θ)=J(θ,W(θ))
其算法伪代码为:
作者还提供了一个理论分析证明,之后要是会用到再补吧。