(感觉石溪的这篇文章写的挺不错子)
随机过程:一串随机事件组成的过程,我们需要分析整体性质(个人理解)
蒙特卡罗方法:采用大量的样本,最终观察样本结果的整体特征。 干货 | 蒙特卡洛方法(Monte Carlo)_无意识统计学家-CSDN博客
第一类:到达过程。即关注的是某种“到达”的事件是否发生,比如在一个服务窗口前,顾客的到达时刻 最明显的特征:相邻间隔时间相互独立 (这一轮赌徒是赢还是输,并不对下一轮赌局的输赢带来任何影响)
所有强化学习都是以马尔可夫过程为基础的,RL中的动态规划和算法里的动态规划还是有一点区别的,RL中的动态规划主要就是对策略网络和价值网络循环地迭代,一个价值网络对应的是所有状态,它的子问题是下一个可能状态的价值的计算,当前问题是当前状态的价值,然后拿上一轮的价值网络来算(自己的理解:算法里似乎是局部的动态规划,rl里面是对整体进行动态规划)。