

我们容易求出折扣回报 U t = R t + γ ⋅ U t + 1 U_t=R_t+\gamma\cdot U_{t+1} Ut=Rt+γ⋅Ut+1

可以进行等式变形。

因为无法直接求出期望,考虑用Monte Carlo近似。

假设states和actions的个数已知,那么可以建立二维table,不断更新table。

通过observe 一个状态转移,通过策略函数计算 a t + 1 a_{t+1} at+1,然后查表 Q π Q_{\pi} Qπ计算TD target。

然后计算TD error,更新表中的 Q π Q_{\pi} Qπ


计算TD target 和 TD error,梯度下降更新训练参数 w w w。





等式变形可以得到上式。

采用Monte Carlo 近似 Q ∗ Q^* Q∗








容易得到 U t U_t Ut的变形式。

Sarsa本质是Multi Step TD 的特殊形式 ( m = 1 ) (m=1) (m=1)。

Q-learning 同理。

因为Multi Step TD Target 更接近真实值,因为 r t r_t rt更真实。所以效果会比One-Step 要好,但是需要考虑性能问题(?)