目录
应用场景
强化学习的本质
以电脑游戏为例
强化学习三个步骤
第一步:有未知参数的函数
第二步:定义Loss
第三步:Optimization
RL的难点
类比GAN
Policy Gradient(策略梯度)
怎么学出actor中的参数
如何定义A
Version 0(最简单但不正确)
Version 1
Version 2
Version 3
Actor-Critic(行动者-批评者)
Critic介绍
Critic 怎么被训练出来的
Monte-Carlo (MC)
Temporal-difference (TD)
两种方法对比
version 3.5
version 4:Advantage Actor-Critic
训练Actor-Critic的小技巧
Deep Q Network (DQN)
Policy Gradient
策略梯度的流程
On-policy v.s. Off-policy
京公网安备 11010502049817号