RLChina2022暑期学习-博弈论基础Game theory
大纲Outline
Motivation and Normal-form Game
人工智能的发展
感知智能(DL)-决策智能(RL)-多智能体决策(RL+博弈论)
生活中的博弈
博弈论发展 历程
博弈要素
- 玩家
- 玩家策略集合,最简单的石头剪刀布,每个玩家有三个动作
- 博弈的效用,奖赏:每个玩家都有各自的矩阵。函数的输入是每个玩家的动作,输出的是奖赏
把上面的这种石头剪刀布表示成下面表格的形式,就是标准形式的博弈
博弈里面有一个假设
每一个玩家都是理性的。1.比较自私,更看重自己的利益;2.
公共知识:所有玩家都知道的事情。游戏规则都知道。都知道对方是理性的。
纯策略:非此即彼
Mixed 策略就是对动作分配了一个概率分布。这样让对手就不好猜。这种情况下,用期望效用来表表示受益
博弈的分类
- 零和博弈:游戏的场景中,两个玩家所得到受益,相加永远为0。只要有一个不是0,都不是零和博弈。表1(横纵轴分别表示两个玩家的动作,抛硬币游戏)
- 合作博弈:两个玩家的效用相等。表2
- 协同博弈:有多个纳什均衡
- 社会困境:囚徒困境。两个人都抵赖,其实是最好的收益。但是从玩家的角度,他们为了获得期望最大,最后都会坦白。
扩展式博弈和非完美信息
博弈树
用树的结构来表示博弈的情况。叶子节点定义博弈结果。边是动作,node是玩家。这种树的结构表示的博弈就是扩展式博弈
扩展式博弈的策略
- 玩家1与前方normal(正则)博弈有相同的策略
- 玩家2:就要根据玩家1采取的动作,来分策略。其策略就变为多维
- 正则式博弈:是静态的博弈
- 扩展式博弈:动态博弈,可以有多个回合。
非完美信息
- 我做了一些动作,别人不知道
- 玩家1历史上做的一些动作,对于玩家2来说是不可知的。这就是非完美的。也就是下图中玩家2不知道自己是处在b还是c。
- 这两个状态对于玩家2来说,就是一个信息集
马尔科夫博弈(随机博弈)
RL中用的博弈基本上都是马尔科夫博弈。
这个也是属于动态博弈。
马尔科夫博弈是一个图结构
属性
- 定义状态空间
- 定义动作空间
- 定义状态转移
- 定义奖励函数
步骤: - 智能体获得当前状态
- 每一个智能体确定执行动作
- 环境在告诉他们会转移到哪个状态
行为策略 - 玩家收到状态,决定采取什么动作。仅依赖状态
对比
贝叶斯博弈与非完全信息
例子:引入贝叶斯博弈
下面是拍卖的游戏
- 玩家都有一个隐藏信息。即内心的价格
- 玩家都出一个价格
- 出价高的玩家获得物品,他的奖励就是内心估值-实际出价。另一个玩家就是0
由于对方玩家可能有不同的内心价格,玩家1需要分情况猜测 - 玩家的出价信息也是有一个出价空间的。
非完全信息
玩家不知道对方的收益矩阵
贝叶斯博弈(静态)单步
描述有隐藏信息的博弈。
玩家对对方的收益矩阵建立一个概率分布
动态贝叶斯博弈
纳什均衡
了解完博弈的类型,现在开始考虑玩家的策略
- 最好的响应best response:假设给定别人的动作,我的动作可以根据策略表,选择最好的动作
- 占优策略DS:不管别人的动作怎么变,我的这个策略总是最好的。那就是占优策略。
- 举例:比如下方的表格,对于绿色玩家而言,D就是占优。不管蓝色玩家出C还是D,绿色玩家采取D得到的奖励都大于采取C 得到的奖励
联合动作:纳什均衡
纳什均衡下的每一个玩家,改变动作已经不能使自己的奖励变得更好,这个时候就达到了一种稳态,也就是纳什均衡。通俗一点:在这个状态下,每个人对自己的其他动作而言,都是占优的
帕累托最优与纳什均衡比较
- 纳什均衡是一个稳定点
- 帕累托最优是一个局部最好点,
混合策略纳什均衡
扩展式博弈下的纳什均衡
先将扩展式博弈写成正则博弈的表达式。
下面的例子有三个纳什均衡,但是只有(3,3)是最稳定的
Subgame perfect Nash 均衡(SPNE)
在所有的子树里面都最稳定的那个
贝叶斯博弈的纳什均衡
举例
纳什均衡的一些性质
重复博弈
一个陌生的玩家,我不知道你的策略,所以我要重复跟你玩游戏,然后学习。