1、强化学习基础知识点

1、强化学习基础知识点
概率论知识补充

 Random Variable

抛硬币是随机事件，正面朝上与反面朝上概率都是0.5，通常使用X表示随机变量，x表示观测值

Probability Density Function (PDF)

概率密度函数意味着某个随机变量在某个确定的取值点附件的可能性

高斯分布

离散概率分布

概率密度函数如果为连续型，则函数积分和为1，离散型所有取值和为1

Random Sampling

随机抽样

强化学习基础

 强化学习概念名词

state：状态
action：动作
agent：智能体

policy：策略（概率密度函数）

各个动作的概率，使用随机的策略，更切合现实，不易看出规律

reward：奖励
要根据实际情况设置奖励，如：吃到金币奖励+1，游戏通过奖励+10000，玛丽淘汰奖励-10000，什么也没发生奖励是0，强化学习的目的是提高获得的奖励
state transition：状态转移
状态转移是随机的，状态转移概率密度函数只有环境知道，玩家不知道

简介

agent采取action，environment的state改变同时返回reward给agent，agent根据reward进行学习
- 强化学习中随机性的来源
  action的随机性
  
  state的随机性
- AI如何玩游戏
  
  观察state s1，Agent利用policy函数执行action a1，environment生成新的state s2并返回的reward r1给agent ，agent再次利用policy函数执行action a2。。。。。。循环该操作
- Rewards and Returns
- 回报
return：回报，也就是未来的累积奖励
Ut由Rt到游戏结束Rn累加所得。当前reword应该比后期reword权重大，比如：今天的80元比明天100元来得实际

y：折扣汇报，介于0-1
- 汇报的随机性
t时刻return取决于t到n时刻的reward，reward取决与state和action，所以return也取决与state和action
- Value Function
action-value function——动作价值函数

对于Ut而言，St和At是可以观察的，St+1——Sn，和At+1——An是随机变量

St+1概率与St，At有关，At+1概率与St+1有关

state-value function——状态价值函数
- Ai control the agent
  
  Π（a|s）策略学习函数，在state情况下最优action，Q（s，a）计算各个动作的得分，选择最优*
评估强化学习

OpenAI Gym

总结

 Deep Q-Network（DQN）

Q 就像是挂，给我们游戏提供最优策略，然后现实是不存在的*

我们可以使用神经网络去近似Q*

Temporal Difference (TD) Learning

论文

Sutton and others: A convergent O(n) algorithm for off-policy temporal-difference learning with linear function approximation. In NIPS, 2008.
Sutton and others: Fast gradient-descent methods for temporal-difference learning with linear function approximation. In ICML, 2009

例子

从NYC到Atlanta，模型预测要1000分钟，实际需要860分钟，那么以方差为损失，就可以进行梯度优化，听起来就像是普通的回归

那么我就开到中途就停车了，我不去Atlanta了，我还能获得更好的w来优化模型么？答案是可以的

虽然我到DC就停了，这里我们可以测量从NYC到DC需要300分钟，模型再预测需要900分钟从DC到Atlanta，那么就可以用1000和（300+600）来计算损失，优化模型
- TD Learning
DQN应用TD Learning

总结
相关阅读:
本地拉取远程代码并
 SDEI初探-透过事务看本质
 JMeter 4.0 如何获取cookie
原生JS中的Ajax
开源IDaaS方舟一账通ArkID系统内置OIDC 认证插件配置流程
 7.spark sql编程
 轻松上手的VsCode：你的理想代码编辑器！
【Verilog 教程】7.1Verilog 除法器设计
 ubuntu(23):ubuntu系统具有两个“系统盘”的说明：一个盘为系统盘，另一个为被系统文件占用的数据盘--可以格式化并重新分配卷类型和卷名称
 salesforce零基础学习（一百二十一）Limitation篇之Heap Size Limitation
原文地址：https://blog.csdn.net/weixin_50973728/article/details/125615069

概率论知识补充

Random Variable

Probability Density Function (PDF)

Random Sampling

强化学习基础

强化学习概念名词

简介

评估强化学习

总结

Deep Q-Network（DQN）

Temporal Difference (TD) Learning

DQN应用TD Learning

总结