抛硬币是随机事件,正面朝上与反面朝上概率都是0.5,通常使用X表示随机变量,x表示观测值

概率密度函数意味着某个随机变量在某个确定的取值点附件的可能性
高斯分布

离散概率分布

概率密度函数如果为连续型,则函数积分和为1,离散型所有取值和为1

随机抽样



state:状态
action:动作
agent:智能体

policy:策略(概率密度函数)

各个动作的概率,使用随机的策略,更切合现实,不易看出规律

reward:奖励
要根据实际情况设置奖励,如:吃到金币奖励+1,游戏通过奖励+10000,玛丽淘汰奖励-10000,什么也没发生奖励是0,强化学习的目的是提高获得的奖励
state transition:状态转移
状态转移是随机的,状态转移概率密度函数只有环境知道,玩家不知道

agent采取action,environment的state改变同时返回reward给agent,agent根据reward进行学习





return:回报,也就是未来的累积奖励
Ut由Rt到游戏结束Rn累加所得。当前reword应该比后期reword权重大,比如:今天的80元比明天100元来得实际

y:折扣汇报,介于0-1



t时刻return取决于t到n时刻的reward,reward取决与state和action,所以return也取决与state和action
action-value function——动作价值函数


对于Ut而言,St和At是可以观察的,St+1——Sn,和At+1——An是随机变量

St+1概率与St,At有关,At+1概率与St+1有关

state-value function——状态价值函数





OpenAI Gym






Q 就像是挂,给我们游戏提供最优策略,然后现实是不存在的*

我们可以使用神经网络去近似Q*

论文
Sutton and others: A convergent O(n) algorithm for off-policy temporal-difference learning with linear function approximation. In NIPS, 2008.
Sutton and others: Fast gradient-descent methods for temporal-difference learning with linear function approximation. In ICML, 2009
例子

从NYC到Atlanta,模型预测要1000分钟,实际需要860分钟,那么以方差为损失,就可以进行梯度优化,听起来就像是普通的回归
那么我就开到中途就停车了,我不去Atlanta了,我还能获得更好的w来优化模型么?答案是可以的


虽然我到DC就停了,这里我们可以测量从NYC到DC需要300分钟,模型再预测需要900分钟从DC到Atlanta,那么就可以用1000和(300+600)来计算损失,优化模型






