我们容易求出折扣回报 U t = R t + γ ⋅ U t + 1 U_t=R_t+\gamma\cdot U_{t+1} Ut=Rt+γ⋅Ut+1
可以进行等式变形。
因为无法直接求出期望,考虑用Monte Carlo近似。
假设states和actions的个数已知,那么可以建立二维table,不断更新table。
通过observe 一个状态转移,通过策略函数计算 a t + 1 a_{t+1} at+1,然后查表 Q π Q_{\pi} Qπ计算TD target。
然后计算TD error,更新表中的 Q π Q_{\pi} Qπ
计算TD target 和 TD error,梯度下降更新训练参数 w w w。
等式变形可以得到上式。
采用Monte Carlo 近似 Q ∗ Q^* Q∗
容易得到 U t U_t Ut的变形式。
Sarsa本质是Multi Step TD 的特殊形式 ( m = 1 ) (m=1) (m=1)。
Q-learning 同理。
因为Multi Step TD Target 更接近真实值,因为 r t r_t rt更真实。所以效果会比One-Step 要好,但是需要考虑性能问题(?)