一些参考的资料:
蘑菇书:https://datawhalechina.github.io/easy-rl/#/chapter1/chapter1
源代码:https://github.com/datawhalechina/easy-rl/releases/tag/v.1.0.3
- 强化学习(Reinforcement Learning)注重让参与者(Agent)在与环境的互动中进行目标导向型学习。参与者可以根据当前所处的环境(State)以及某一个行动策略(policy)来选择一个行动(Action)来与环境进行一系列的互动。
- 有一些互动可以立即从环境中获取奖励(Reward),并且改变环境的状态,甚至可以改变后续的奖励;但是有一些互动可能会存在延迟。并且这些奖励有正向的也有负向的。
- 参与者可以根据环境的反馈来学习怎么最大化长期回报(Return),并且提取一个最优的策略,达到强化学习任务目标。
- 机器学习包括强化学习、监督与无监督学习
- 强化学习和监督学习无监督学习一样都是从历史数据中进行学习,并且对未来做出预测的过程,三者都符合机器学习的定义
试错学习:从环境中获取结果的驱动力,控制环境朝着期望的目标前进。
最优控制:给定的约束条件下,寻求一个控制,使得给定系统的某一个指标达到最优
时序差分法
- 深度学习将强化的决策能力和深度学习的感知能力结合,改进了传统强化学习难以应对大且连续行动和样本空间的问题。
- 深度强化学习将神经网络融入到强化学习的体系中,使参与者能在环境中学习可能的最佳行动,以实现其目标。它也将函数逼近(Function Approximation)和目标优化结合起来,将状态-动作对映射到期望的奖励,并以此作为行动的评估反馈,通过迭代,学习最佳策略。