《RLChina2022-强化学习暑期课程-博弈搜索算法》的学习笔记
主讲人:中科院自动化 林舒老师
通过一系列的(多步)决策来达到某种目标,而不是像DL分类中的单步决策。每一步决策都会影响后续决策。
现实生活中的例子:
序列决策问题一般可以用马尔可夫决策(MDP)模型描述。MDP包含以下组成部分:
简单起见,后续主要使用确定性的转移函数。

MDP 模型将序列决策问题统一为最优路径问题:将状态视为结点,转移函数视为边,要求从起点
s
0
s_{0}
s0 出发到达任意终点
s
t
∈
T
s_{t}\in T
st∈T,使得路径上奖励之和最大。
R
(
s
,
a
)
≡
−
1
R(s,a)\equiv -1
R(s,a)≡−1表示目标是想让移动步数最少。


前三种搜索一定能达到最优解,而对抗搜索是提高了效率,在解的最优性上有些取舍
DEEP-FIRST-SEARCH (DFS)


回溯法并没有在暴力搜索的基础上,进行任何改进。依旧是全局遍历。
这就涉及到搜索核心优化技术:剪枝

剪枝分类举例:



Breadth-First-Search(BFS)





与强化学习的区别:
搜索算法不需要与环境交互,这样就省了建立环境模型这样的步骤

启发搜索只是改变了搜索的顺序,指导更快找到最优解
在广度优先的基础上,最先访问较好的节点




I:Iteration
D:Deep

因为我们的目的是要找奖励最大值,所以我们设定一个f下限。





最优性剪枝



翻转棋
α
−
β
\alpha-\beta
α−β剪枝代码实现:

此外,评估函数也不好写。

模拟:也叫蒙特卡洛方法。随机。重复玩多次游戏,记录结果,然后在回溯进行更新
AlphaGo就是RL + MCTS
1.http://rlchina.org/topic/500