Value-Based RL

在这里插入图片描述

$U_t$ 等于从 $t$ 时刻开始的奖励之和，并且给未来的奖励一个折扣率 $\gamma \in [0,1]$

$U_t$ 是一个随机变量，其不确定性来自于未来的状态和动作，动作是通过策略函数随机得到，状态是通过状态转移函数随机得到。

在这里插入图片描述

用 $Q_\pi(s_t,a_t)$ 表示 $U_t$ 的期望，该函数进行评估在策略 $\pi$ 下状态 $s_t$ 执行动作 $a_t$ 的好坏。

关于为什么用Q缩写来表示的原因：

有一篇论文提到了，但是貌似是猜测。
在这里插入图片描述
[Christopher Watkins Learning From Delayed Rewards]

Quantity 貌似说不通，衡量动作的好坏的函数用数量(?)缩写，我觉得用Quality(质量)更加贴切，类似评价物品的好坏，用Quality一样。

在这里插入图片描述

我们定义最优动作价值函数 $Q^*(s_t,a_t)$ 来表示在所有策略下的最大 $Q$ ，通过这个函数我们可以找到最优的 $a_t$ 。

在这里插入图片描述

为了近似这个 $Q^*$ 函数，我们便使用价值网络(DQN)来近似该函数。

在这里插入图片描述

DQN的输入就是状态 $s_t$ ，通过卷积层提取特征向量，在经过全连接层得到每个动作对应的价值。

在这里插入图片描述

通过该网络，我们便可以觉得每次执行什么动作 $a_t$ ，然后得到外界的奖励 $r_t$ 和新一轮的状态 $s_{t+1}$ ，从而不断地执行下去。

用来训练价值网络地算法称为：Temporal Difference (TD) Learning，时间差分序列算法。

在这里插入图片描述

上图是一个TD算法的实例，用来估计两地距离。

把它应用到DQN中，就是如下图所示。

在这里插入图片描述

可以看到， $Q$ 值由真实值和模型预测值组成。

在这里插入图片描述

我们对回报Return的期望进行变形，便可以得到与TD算法类似的等式关系。

在这里插入图片描述

通过该算法，我们便可以求出TD的目标函数 $y_t$ ，计算损失 $L oss$ ，然后进行梯度下降训练网络。

在这里插入图片描述

相关阅读:
Postman 教程使用详解：如何安装和使用 Postman 进行 API 测试
【R语言】动画图：散点图
JavaWeb简单实例——jQuery
LeetCode每日一题搜索插入位置(二分查找)
倍增法求最近公共祖先（LCA）
【Linux】源码编译安装openssl
ArrayList与顺序表
Docker export导出容器，重新运行导出的容器
分布式数据库难题（四）：单机事务
模拟手写实现Spring

原文地址：https://blog.csdn.net/weixin_45750972/article/details/126773064