机器学习的类型
预测型
决策型
区别: 比如智慧医疗,前者像是根据你的身体预测你可能会得某种疾病;后者是ai直接提供一个治疗方案
强化学习的定义
智能体
环境
智能体
环境
t在环境这一步增加
例子: 如果你在玩超级玛丽,那么游戏画面就是环境,玛丽是智能体,根据当前的游戏画面,超级玛丽会有三种行为。每一次跳跃前进后退都会改变环境(金币减少、蘑菇被吃、game over…),每一次的行为都会得到一个奖励,金币减少+1,通关+100,game over-100,因为我们的目标是获得最大累积奖励,通过不断训练不断重复,超级玛丽最终会朝着奖励最大的方向做出一系列动作。
强化学习术语
符号解释
历史: 是观察、行动和奖励的序列,根据这个历史就可以知道接下来会发生什么动作。
H
t
=
O
1
,
R
1
,
A
1
,
O
2
,
R
2
,
A
2
,
.
.
.
,
O
t
−
1
,
R
t
−
1
,
A
t
−
1
,
Q
t
,
R
t
H_t=O_1,R_1,A_1,O_2,R_2,A_2,...,O_{t-1},R_{t-1},A_{t-1},Q_{t},R_t
Ht=O1,R1,A1,O2,R2,A2,...,Ot−1,Rt−1,At−1,Qt,Rt
状态(state): 处于环境中的一种状态,移动超级玛丽,状态改变
序列也可以改成:
H
t
=
S
1
,
A
1
,
R
2
,
S
2
,
A
2
,
.
.
.
,
S
t
H_t=S_1,A_1,R_2,S_2,A_2,...,S_t
Ht=S1,A1,R2,S2,A2,...,St
策略(Policy): 是状态到行动的映射,合格的策略能指导智能体采取最佳行动以获取最高总收益。
奖励(Reward): R ( s , a ) R(s,a) R(s,a)是一个标量,能立即感知什么是“好”。
回报(return): 我们把未来的奖励称之为回报,即带衰减的后续奖励之和,例如从t时刻开始的回报可以定义为:
G
t
=
R
t
+
1
+
γ
R
t
+
2
+
γ
2
R
t
+
3
+
.
.
.
=
∑
k
=
t
∞
γ
k
R
t
+
k
+
1
G_t=R_{t+1}+\gamma R_{t+2}+\gamma ^2R_{t+3}+...=\sum_{k=t}^\infty\gamma ^kR_{t+k+1}
Gt=Rt+1+γRt+2+γ2Rt+3+...=k=t∑∞γkRt+k+1
其中$\gamma $为折扣因子(discounting factor),区间在[0,1]。
价值函数: 用于定义长期什么是“好”,价值函数是对于未来累积奖励的预测,用于评估未来某个状态或者动作的好坏。
最优价值函数: 采用最优策略可以产生最大回报
Q
∗
(
s
,
a
)
=
m
a
x
π
Q
π
(
s
,
a
)
Q_*(s,a)=\underset {\pi}{max}Q_{\pi}(s,a)
Q∗(s,a)=πmaxQπ(s,a)
V
∗
(
s
)
=
m
a
x
π
V
π
(
s
)
V_*(s)=\underset {\pi}{max}V_{\pi}(s)
V∗(s)=πmaxVπ(s)
强化学习算法分类
是否依赖模型
基于模型的强化学习:有环境模型,比如围棋,象棋
模型无关的强化学习:无环境模型,需要和现实交互,比如ai医生
策略or价值