1.在MRP中状态的转移过程是随机的,如果在MRP的基础上对于状态转移加入人为干预便成了MDP。马尔可夫决策过程由五元组组成
(
S
,
A
,
γ
,
r
(
s
,
a
)
,
P
(
s
′
∣
s
,
a
)
)
(S,A,\gamma,r(s,a),P(s'|s,a))
(S,A,γ,r(s,a),P(s′∣s,a))。(区分一下MRP中的
r
(
s
)
r(s)
r(s)与MDP中的
r
(
s
,
a
)
r(s,a)
r(s,a):第
t
t
t阶段的奖励在MRP中成立
R
t
=
r
(
s
)
R_t=r(s)
Rt=r(s),在MDP中成立
R
t
=
r
(
s
,
a
)
R_t=r(s,a)
Rt=r(s,a),
r
(
s
)
r(s)
r(s)是指由某个状态转移到
s
s
s所获得的奖励,
r
(
s
,
a
)
r(s,a)
r(s,a)是指在状态
s
s
s下选择动作
a
a
a所获得的奖励)
2.在MDP中智能体对于状态转移的干预方式定义为策略
π
\pi
π,公式表示为
π
(
a
∣
s
)
=
P
(
A
t
=
a
∣
S
t
=
s
)
\pi(a|s)=P(A_t=a|S_t=s)
π(a∣s)=P(At=a∣St=s)。策略分为确定性策略与随机性策略,确定性策略是指当前状态下选定了动作后转移到的策略是固定的。
3.价值函数在MDP中也分为两种:状态价值函数与动作价值函数。
MDP中基于策略
π
\pi
π的状态价值函数定义为从状态
s
s
s出发遵循策略
π
\pi
π到达终结状态的回报,公式表达为:
V
π
(
s
)
=
E
π
[
G
t
∣
S
t
=
s
]
V^{\pi}(s)=E_{\pi}[G_t|S_t=s]
Vπ(s)=Eπ[Gt∣St=s]
MDP中基于策略
π
\pi
π的动作价值函数定义为从状态
s
s
s出发执行动作
a
a
a后遵循策略
π
\pi
π到达终结状态的回报,公式表达为:
Q
π
(
s
,
a
)
=
E
π
[
G
t
∣
S
t
=
s
,
A
t
=
a
]
=
r
(
s
,
a
)
+
γ
∑
s
′
∈
S
P
(
s
′
∣
s
,
a
)
V
π
(
s
′
)
状态价值函数与动作价值函数之间存在着如下的关系。
V
π
(
s
)
=
∑
a
∈
A
π
(
a
∣
s
)
Q
π
(
s
,
a
)
V^{\pi}(s)=\sum_{a\in A}\pi(a|s)Q^{\pi}(s,a)
Vπ(s)=a∈A∑π(a∣s)Qπ(s,a)
状态价值函数与动作价值函数的贝尔曼期望(bellman expectation equation)方程定义如下:
Q
π
(
s
,
a
)
=
E
π
[
R
t
+
γ
Q
π
(
s
′
,
a
′
)
∣
S
t
=
s
,
A
t
=
a
]
=
r
(
s
,
a
)
+
γ
∑
s
′
∈
S
P
(
s
′
∣
s
,
a
)
V
π
(
s
′
)
=
r
(
s
,
a
)
+
γ
∑
s
′
∈
S
P
(
s
′
∣
s
,
a
)
∑
a
′
∈
A
π
(
a
′
∣
s
′
)
Q
π
(
s
′
)
V
π
(
s
)
=
E
π
[
R
t
+
γ
V
π
(
s
′
)
∣
S
t
=
s
]
=
∑
a
∈
A
π
(
a
∣
s
)
Q
π
(
s
,
a
)
=
∑
a
∈
A
π
(
a
∣
s
)
(
r
(
s
,
a
)
+
γ
∑
s
′
∈
S
P
(
s
′
∣
s
,
a
)
V
π
(
s
′
)
)
4.我们可以将MDP转化成MRP,通过定义奖励函数与状态转移函数如下。一些小型的MDP问题转化为MRP之后,便可以使用MRP的解析解的方法求解价值函数了。当状态集合或者动作集合较大时,可以使用动态规划以及蒙特卡洛采样的方法来计算价值函数。
r
′
(
s
)
=
∑
a
∈
A
π
(
a
∣
s
)
r
(
s
,
a
)
P
′
(
s
′
∣
s
)
=
∑
a
∈
A
π
(
a
∣
s
)
P
(
s
′
∣
s
,
a
)
r'(s)=\sum_{a\in A}\pi(a|s)r(s,a)\\ P'(s'|s)=\sum_{a\in A}\pi(a|s)P(s'|s,a)
r′(s)=a∈A∑π(a∣s)r(s,a)P′(s′∣s)=a∈A∑π(a∣s)P(s′∣s,a)