强化学习相关的Q-Learning算法的介绍。此处笔记根据B站课程,王树森老师的强化学习记录而来。8.Q-Learning算法 (TD Learning 2_3)(Av374239425,P8)_哔哩哔哩_bilibili
Q-Learning也是TD算法的一种,也是训练价值网络,但是和Saras不同。


| Sarsa | 近似QΠ,学习动作价值函数 |
| Q-Learning | 近似Q*,学习最优动作价值函数,学习DQN |
已知QΠ的期望表达式,推导最优的QΠ*。最优价值函数。其期望表达式形式为:




则A(t+1)=argmax Q*(s(t+1),a),是最优动作。Q*替换为最大化形式,近似Q*Π的期望形式,对a求蒙特卡洛近似。Q*的表达式为:
观测到(s(t),a(t),r(t),s(t+1))——>计算yt,最大化的求解过程即在对那个的s(t+1)的行里找到价值最高的动作a(t)。


训练一个QDN网络近似Q*,为所有的动作打分。


