▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch1 基本概念

PPT 截取有用信息。课程网站做习题。总体 MOOC 过一遍

1、视频 + 学堂在线习题
2、相应章节过电子书复习
3、总体 MOOC 过一遍

学堂在线课程页面链接
 中国大学MOOC 课程页面链接
 B 站视频链接

PPT和书籍下载网址：【github链接】
onedrive链接：
【书】
【课程PPT】

通过例子介绍强化学习的基本概念
基于马尔可夫决策过程介绍

状态 State： $s_1, s_2, ..., s_9$
状态空间 State space : $\mathcal{S} = \{s_i\}_{i = 1}^9$

行动 Action： $a_1,..., a_5$
行动空间 Action space： $\mathcal{A}(s_i) = \{a_i\}_{i = 1}^5$

状态转移 state transition： $s_1\xrightarrow{a_2} s_2$

在这里插入图片描述
只能表示确定的情况，无法表示状态转移多种可能的情况

状态转移概率 State transition probability:

既可描述确定性情况，也可描述具有随机性的情况。
$p(s_2|s_1,a_2) = 1$
$p(s_i|s_1, a_2)=0, \forall ~ i\neq 2$

策略 Policy
策略告诉 agent 在每个状态下要采取哪些行动。

三种表示方法：
在这里插入图片描述

数学表示：
$\pi$ ：条件概率，任何一个状态下，任何一个 action 的概率

在这里插入图片描述

——————
奖励 Reward：实数、标量。人机交互的手段

$r (s, a)$

一般
正：鼓励
负：惩罚

即时奖励大并不意味着能获得最大的总体奖励。

在这里插入图片描述

轨迹 Trajectory：状态-动作-奖励链

回报 return：沿轨迹获得的所有奖励的总和

在这里插入图片描述
return 越大，策略越好。

Discounted return 折扣回报

在这里插入图片描述

折扣率 discount rate $\gamma$

在这里插入图片描述
每多进行一个动作，前面的参数多乘上一个 $\gamma$

作用：
1、和不再发散。
2、平衡更近未来得到的 reward 和更远未来得到的 reward。

减小 $\gamma$ ，近视，更加注重最近的 reward。
增大 $\gamma$ ，远视，更加注重长远的 reward。

回合 Episode: 试了一次。有限步

episodic tasks: 最终停在某处的任务
continuing tasks：agent 和环境的交互会永远持续

将 episodic tasks 转成 continuing tasks，统一处理
方法一：将目标状态视为特殊的吸收状态 (absorbing state)。一旦 agent 到达一个吸收状态，就不会再离开。之后的奖励都为 0.
方法二：将目标状态视为带策略的普通状态。耗费更多的搜索，更一般化。【本课程选择这种】

通过折扣率计算折扣回报避免发散。

马尔科夫决策过程 (Markov decision process，MDP)

MDP 的关键要素：
集合：
状态集合 State $\mathcal{S}$
动作集合 Action $\mathcal{A(s)}$ , 其中 $\in \mathcal{S}$
奖励集合 Reward $\mathcal{R(s, a)}$

概率分布：
状态转移概率 State transition probability

状态 $\mathcal{s}$ ，进行动作 $\mathcal{a}$ ，转移到状态 $\mathcal{s}^{\prime}$ 的概率为 $p(\mathcal{s}^{\prime}|(s, a))$

奖励概率 Reward probability

状态 $\mathcal{s}$ ，进行动作 $\mathcal{a}$ ，获得奖励 $\mathcal{r}$ 的概率为 $p (r ∣ (s, a))$

策略 Policy：状态为 $\mathcal{s}$ ，进行动作 $\mathcal{a}$ 的概率为 $\pi(a|s)$

Markov 特性：无记忆性，下一刻 $t + 1$ 的状态和奖励仅和当前时刻 $t$ 的状态有关。

$p(s_{t + 1}|a_{t + 1}, s_t,...,a_1,s_0)=p(s_{t + 1}|a_{t + 1}, s_t)$
$p(r_{t + 1}|a_{t + 1}, s_t,...,a_1,s_0)=p(r_{t + 1}|a_{t + 1}, s_t)$

马尔科夫决策过程 + 确定的策略 ——> 马尔科夫过程

回报和下一状态 $s^\prime$ 有关。
$a)=\sum\limits_{s^\prime}p(r|s,a,s^{\prime})p(s^\prime|s,a)$

习题笔记：

每一个状态最优的动作是能得到 长期回报均值最大 的那个，而不是得到立即奖励最大的那个。
MDP是和策略有关系的，其中 decision 对应的就是 policy。

相关阅读:
【Designing ML Systems】第 7 章：模型部署和预测服务
神经网络算法是什么意思,神经网络算子有哪些
labview 创建 00 到 FF 连续数据流
Hadoop学习记录1
LeetCode题练习与总结：括号生成
QT配置MySQL数据库 && ninja: build stopped: subcommand failed
【云原生 | Kubernetes 系列】— Kubernetes存储方案
【Linux】UOS桌面系统，设置普通用户sudo免密
如果面试时，问你职业规划怎么答？
OpenGL原理与实践——核心模式（三）：Texture-纹理系统理论与应用

原文地址：https://blog.csdn.net/weixin_46034116/article/details/138477873

▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch1 基本概念

折扣率 discount rate γ \gamma γ

马尔科夫决策过程 (Markov decision process，MDP)

折扣率 discount rate $\gamma$