试错和延迟收益是强化学习两个最重要最显著的特征。
强化学习既表示一个问题,又是一类解决问题的方法,同时还是一个研究此问题及其解决方法的领域。
区分“问题”和“解决方法”,在强化学习中十分重要。
马尔可夫决策过程包含三方面——感知、动作和目标。
强化学习目的是最大化收益信号,而不是找出数据的隐含结构。
基于一般原则的方法,比如搜索或学习,被定性为“弱方法”;而基于知识的方法则被称为“强方法”。
在个体和环境之外,强化学习系统一般有四个要素:策略、收益信号、价值函数、环境模型。
策略:定义学习智能体在给定时间内行为方式。
收益信号:定义强化学习问题中的目标。
价值函数:定义长期收益,收益信号表明直接意义上的好处。
没有收益就没有价值,而评估价值的唯一目的就是获得更多的收益
环境模型:对环境的模拟,它对环境的行为做出推断。例如给定状态和动作,模型可以预测结果的下一个状态和下一个收益。