七天强化学习DAY1-1｜(一)模型基础

七天强化学习DAY1-1｜(一)模型基础
局部reward和全局reward之间的关系

每一步奖励值求和

从今天开始学习强化学习领域的知识，主要参考的资料是Sutton强化学习书和UCL强化学习的课程。

第一篇会从强化学习的基本概念讲起，对应Sutton书的第一章和UCL课程的第一讲。

目录

1.强化学习在机器学习中的位置

2.强化学习的建模

2.1强化学习模型的八个基本学习因素

3.强化学习的简单实例

1.强化学习在机器学习中的位置

强化学习的学习思路和人类比较类似，强化学习是和监督学习、非监督学习并列的第三种机器学习方法，如下图所示：

强化学习来和监督学习最大的区别是它是没有监督学习（已经准备好的）训练数据输出值。强化学习只有奖励值，但是这个奖励值和监督学习的输出值不一样，它不是事先给出的，而是延后给出的。同时，强化学习的每一步与时间顺序前后关系紧密，而监督学习的训练数据之间一般都是独立的，没有这种前后的依赖关系。

非监督学习既没有输出值也没有奖励值，它只有数据特征，同时和监督学习一样，数据之间是独立的，没有强化学习前后的依赖关系。

2.强化学习的建模

如何建模如下图所示：

2.1强化学习模型的八个基本学习因素

上面的大脑代表算法执行个体，我们可以操作个体来做决策，选择一个合适的动作(action) $A_{t}$

下面的地球代表研究的环境，它有自己的状态模型，当选择了动作 $A_{t}$ 后，环境的状态(state)会发生变化，变为 $S_{t+1}$ ，同时得到了动作 $A_{t}$ 的延时奖励(reward) $R_{t+1}$ 。然后个体可以继续选择下一个合适的动作，然后环境的状态又会变，又有新的奖励值。这就是强化学习的思路。

强化学习要素：

(1)环境的状态，t时刻环境的状态 $S_{t}$ 是它的环境状态集中某一个状态。

(2)个体的动作，t时刻个体采取的动作 $A_{t}$ 是它的动作集中某一个动作。

(3)环境的奖励，t时刻个体在状态 $S_{t}$ 采取的动作 $A_{t}$ 对应的奖励 $R_{t+1}$ 会在t+1时可得到。

(4)个体的策略(policy) $\pi$ ，它代表个体采取动作的依据，即个体会依据策略(policy) $\pi$ 来选择动作。最常讲的策略表达方式是一个条件概率分布 $\pi (a|s)$ ，即在状态时采取动作的概率。即 $\pi (a|s)=P(A_{t}=a|S_{t}=s)$ , 此时概率大的动作被个体选择的概率较高。

(5)个体在策略𝜋和状态s时，采取行动后的价值(value)，一般用 $V_{\pi }(s)$ 表示。这个价值一般是一个期望函数，虽然当前动作会给出一个延时奖励 $R_{t+1}$ ，但是光看这个延时奖励是不行的，因为当前的延时奖励搞，不代表t+1，t+2，...时刻的后续奖励也高。

比如下象棋，我们可以某个动作可以吃掉对方的车，这个延时奖励是很高，但是接着后面我们输棋了。此时吃车的动作奖励值高但是价值并不高。

因此我们要综合考虑当前的延时奖励和后续的延时奖励。价值函数 $V_{\pi }(s)$ 一般可以表示为下式，不同的算法会有对应的一些价值函数变种，但思路相同。

$V_{\pi }(s) = \mathbb{E}_{\pi }(R_{t+1}+\gamma R_{t+2}+\gamma ^{2}R_{t+3}+\cdot \cdot \cdot |S_{t}=s)$

(6) $\gamma$ 为奖励衰减因子，在[0,1]之间。如果为0，则为贪婪法，即价值只由当前延时奖励决定，如果是1，则所有的后续状态奖励和当前奖励一视同仁。大多数时候，我们会取一个0到1之间的数字，即当前延时奖励的权重比后续奖励的权重大。

(7)环境的状态转化模型，可以理解为一个概率状态机，它可以表示为一个概率模型，即在状态s下采取动作𝑎,转到下一个状态 s′的概率，表示为 $p_{ss^{'}}^{a}$ 。

(8)探索率 $\epsilon$ ，这个比率主要用在强化学习训练迭代过程中，由于我们一般会选择使当前轮迭代价值最大的动作，但是这会导致一些较好的但我们没有执行过的动作被错过。因此我们在训练选择最优动作时，会有一定的概率 $\epsilon$ 不选择使当前轮迭代价值最大的动作，而选择其他的新动作。

在不同的强化学习模型中，会考虑一些其他的模型要素，或者考虑一些其他的模型要素，或者不考虑上述要素的某几个。

3.强化学习的简单实例

machinelearning/introduction.py at master · ljpzzz/machinelearning · GitHub

第三个：
```
#give reward to two participants
from sklearn.feature_selection import SelectFdr
 
#定义奖励机制
def giveReward(self):
    if self.currentState.winner == self.p1Symbol: #第一个选手获胜
        self.p1.feedReward(1)
        self.p2.feedReward(0)
    elif self.currentState.winner == self.p2Symbol: #第二个选手获胜
        self.p1.feedReward(0)
        self.p2.feedReward(1)
    else:
        self.p1.feedReward(0.1)
        self.p2.feedReward(0.5)
```
第四个是个体的策略 (policy) $\pi$ ，这个一般是通过学习得到的，我们会在每轮以较大的概率选择当前价值最高的动作，同时以较小的概率去探索新动作，代码如下所示：

exploreRate就是第八个要素 $\epsilon$ ，即以 $\epsilon$ 的概率选择新动作，以 $1-\epsilon$ 的概率选择当前价值最大的动作。
```
#give reward to two participants
from gettext import npgettext
from matplotlib.backend_bases import key_press_handler
import numpy
from sklearn.feature_selection import SelectFdr
import numpy as np
 
#定义奖励机制
def giveReward(self):
    if self.currentState.winner == self.p1Symbol: #第一个选手获胜
        self.p1.feedReward(1)
        self.p2.feedReward(0)
    elif self.currentState.winner == self.p2Symbol: #第二个选手获胜
        self.p1.feedReward(0)
        self.p2.feedReward(1)
    else:
        self.p1.feedReward(0.1)
        self.p2.feedReward(0.5)
 
#determine the next action
def takeAction(self):
    state = self.states[-1]
    nextStates = [] #下一个状态
    nextPositions = [] #下一个位置坐标
    for i in range(BOARD_ROWS):
        for j in range(BOARD_COLS):
            if state.data[i,j] == 0:
                nextPositions.append([i,j])
                nextStates.append(state.nextState(i, j, self.symbol).getHash()) 
    if np.random.binomial(1, self.exploreRate): #探索率
            np.random.shuffle(nextPositions)
            #不确定truncating是否是处理探索步骤的最佳方法
            #也许仅跳过这一步比忘记所有的历史数据更好
            self.states = []
            action = nextPositions[0]
            action.append(self.symbol)
            return action
    
    values = []
    for hash, pos in zip(nextStates, nextPositions):
        values.append((self.estimations[hash], pos))
    np.random.shuffle(values)
    values.sort(key= lambda x: x[0], reverse = True)
    action = values[0][1]
    action.append(self.symbol)
    return action
```
第五个是价值函数，代码里用value表示。价值函数的更新代码里只考虑了当前动作的现有价值和得到的奖励两部分，可以认为我们的第六个模型要素衰减因子 $\gamma$ 为0。具体的代码部分如下：
```
#give reward to two participants
from gettext import npgettext
from matplotlib.backend_bases import key_press_handler
import numpy
from sklearn.feature_selection import SelectFdr
import numpy as np
 
#定义奖励机制
def giveReward(self):
    if self.currentState.winner == self.p1Symbol: #第一个选手获胜
        self.p1.feedReward(1)
        self.p2.feedReward(0)
    elif self.currentState.winner == self.p2Symbol: #第二个选手获胜
        self.p1.feedReward(0)
        self.p2.feedReward(1)
    else:
        self.p1.feedReward(0.1)
        self.p2.feedReward(0.5)
 
#determine the next action
def takeAction(self):
    state = self.states[-1]
    nextStates = [] #下一个状态
    nextPositions = [] #下一个位置坐标
    for i in range(BOARD_ROWS):
        for j in range(BOARD_COLS):
            if state.data[i,j] == 0:
                nextPositions.append([i,j])
                nextStates.append(state.nextState(i, j, self.symbol).getHash()) 
    if np.random.binomial(1, self.exploreRate): #探索率
            np.random.shuffle(nextPositions)
            #不确定truncating是否是处理探索步骤的最佳方法
            #也许仅跳过这一步比忘记所有的历史数据更好
            self.states = []
            action = nextPositions[0]
            action.append(self.symbol)
            return action
    
    values = []
    for hash, pos in zip(nextStates, nextPositions):
        values.append((self.estimations[hash], pos))
    np.random.shuffle(values)
    values.sort(key= lambda x: x[0], reverse = True)
    action = values[0][1]
    action.append(self.symbol)
    return action
 
# update estimation according to reward
def feedReward(self, reward):
    if len(self.states) == 0:
        return
    self.states = [state.getHash() for state in self.states]
    target = reward
    for latestState in reversed(self.states):
        value = self.estimations[latestState] + self.stepSize * (target - self.estimations[latestState])
        self.estimations[latestState] = value
        target = value
    self.states = []
```
第七个是环境的状态转化模型，这里由于每一个动作后，环境的下一个模型状态是确定的，也就是九宫格的每个格子是否有某个选手的棋子是确定的，因此转化的概率都是1，不存在某个动作后会以一定的概率到某几个新状态，比较简单。

完整代码示例见python专栏

欢迎转载，转载请注明出处。欢迎沟通交流： liujianping-ok@163.com）

强化学习（一）模型基础 - 刘建平Pinard - 博客园
相关阅读:
导出数据库表信息生成Word文档
 极客日报：中国团队拿下EDA全球冠军；黄金版iPad mini 6售价54万；微软Bing推出网购全新功能
 什么是间谍软件恶意软件？
【每日一题】柱状图中最大的矩形
 PMP备考大全：经典题库（敏捷管理第9期）
list去重和list倒叙
 消息队列MQ详解(Kafka、RabbitMQ、RocketMQ、ActiveMQ等)
Day30力扣打卡
 苹果签名的MDM（Mobile Device Management）？是怎么做的？优势是什么？什么场合需要应用到？
Java代码实现RSA算法加密解密文件功能
原文地址：https://blog.csdn.net/m0_57656758/article/details/127620835

1.强化学习在机器学习中的位置

2.强化学习的建模

2.1强化学习模型的八个基本学习因素

3.强化学习的简单实例