强化学习大致可以分为两类:无模型强化学习算法和基于模型的强化学习算法。无模型强化学习算法不会学习环境转换函数的模型来预测未来状态和奖励。Q 学习、深度 Q 网络和策略梯度方法是无模型算法,因为它们不创建环境转换函数的模型。
Q-学习算法的流程为:
1. 初始化您的 Q 表
2. 使用 Epsilon-Greedy 探索策略选择一个操作
3. 使用贝尔曼方程更新 Q 表
京公网安备 11010502049817号