• RLChina2022暑期学习-博弈论基础


    RLChina2022暑期学习-博弈论基础Game theory

    大纲Outline

    在这里插入图片描述

    Motivation and Normal-form Game

    人工智能的发展

    在这里插入图片描述
    感知智能(DL)-决策智能(RL)-多智能体决策(RL+博弈论)

    生活中的博弈

    在这里插入图片描述

    博弈论发展 历程

    在这里插入图片描述

    博弈要素

    1. 玩家
    2. 玩家策略集合,最简单的石头剪刀布,每个玩家有三个动作
    3. 博弈的效用,奖赏:每个玩家都有各自的矩阵。函数的输入是每个玩家的动作,输出的是奖赏
      在这里插入图片描述
      把上面的这种石头剪刀布表示成下面表格的形式,就是标准形式的博弈
      在这里插入图片描述

    博弈里面有一个假设

    每一个玩家都是理性的。1.比较自私,更看重自己的利益;2.
    在这里插入图片描述
    公共知识:所有玩家都知道的事情。游戏规则都知道。都知道对方是理性的。
    在这里插入图片描述
    纯策略:非此即彼
    Mixed 策略就是对动作分配了一个概率分布。这样让对手就不好猜。这种情况下,用期望效用来表表示受益
    在这里插入图片描述

    博弈的分类

    • 零和博弈:游戏的场景中,两个玩家所得到受益,相加永远为0。只要有一个不是0,都不是零和博弈。表1(横纵轴分别表示两个玩家的动作,抛硬币游戏)
    • 合作博弈:两个玩家的效用相等。表2
    • 协同博弈:有多个纳什均衡
    • 社会困境:囚徒困境。两个人都抵赖,其实是最好的收益。但是从玩家的角度,他们为了获得期望最大,最后都会坦白。
      在这里插入图片描述

    扩展式博弈和非完美信息

    博弈树

    用树的结构来表示博弈的情况。叶子节点定义博弈结果。边是动作,node是玩家。这种树的结构表示的博弈就是扩展式博弈
    在这里插入图片描述

    扩展式博弈的策略

    • 玩家1与前方normal(正则)博弈有相同的策略
    • 玩家2:就要根据玩家1采取的动作,来分策略。其策略就变为多维

    在这里插入图片描述

    • 正则式博弈:是静态的博弈
    • 扩展式博弈:动态博弈,可以有多个回合。
      在这里插入图片描述

    非完美信息

    • 我做了一些动作,别人不知道
    • 玩家1历史上做的一些动作,对于玩家2来说是不可知的。这就是非完美的。也就是下图中玩家2不知道自己是处在b还是c。
    • 这两个状态对于玩家2来说,就是一个信息集
      在这里插入图片描述

    马尔科夫博弈(随机博弈)

    RL中用的博弈基本上都是马尔科夫博弈。
    这个也是属于动态博弈。
    马尔科夫博弈是一个图结构

    属性

    • 定义状态空间
    • 定义动作空间
    • 定义状态转移
    • 定义奖励函数
      步骤:
    • 智能体获得当前状态
    • 每一个智能体确定执行动作
    • 环境在告诉他们会转移到哪个状态
      行为策略
    • 玩家收到状态,决定采取什么动作。仅依赖状态

    在这里插入图片描述

    对比

    在这里插入图片描述

    贝叶斯博弈与非完全信息

    例子:引入贝叶斯博弈

    下面是拍卖的游戏

    • 玩家都有一个隐藏信息。即内心的价格
    • 玩家都出一个价格
    • 出价高的玩家获得物品,他的奖励就是内心估值-实际出价。另一个玩家就是0
      由于对方玩家可能有不同的内心价格,玩家1需要分情况猜测
    • 玩家的出价信息也是有一个出价空间的。
      在这里插入图片描述

    非完全信息

    玩家不知道对方的收益矩阵

    在这里插入图片描述

    贝叶斯博弈(静态)单步

    描述有隐藏信息的博弈。
    玩家对对方的收益矩阵建立一个概率分布
    在这里插入图片描述

    动态贝叶斯博弈

    在这里插入图片描述
    在这里插入图片描述

    纳什均衡

    了解完博弈的类型,现在开始考虑玩家的策略

    • 最好的响应best response:假设给定别人的动作,我的动作可以根据策略表,选择最好的动作
    • 占优策略DS:不管别人的动作怎么变,我的这个策略总是最好的。那就是占优策略。
    • 举例:比如下方的表格,对于绿色玩家而言,D就是占优。不管蓝色玩家出C还是D,绿色玩家采取D得到的奖励都大于采取C 得到的奖励
      在这里插入图片描述

    联合动作:纳什均衡

    纳什均衡下的每一个玩家,改变动作已经不能使自己的奖励变得更好,这个时候就达到了一种稳态,也就是纳什均衡。通俗一点:在这个状态下,每个人对自己的其他动作而言,都是占优的
    在这里插入图片描述

    帕累托最优与纳什均衡比较

    • 纳什均衡是一个稳定点
    • 帕累托最优是一个局部最好点,
      在这里插入图片描述

    混合策略纳什均衡

    在这里插入图片描述

    扩展式博弈下的纳什均衡

    先将扩展式博弈写成正则博弈的表达式。
    下面的例子有三个纳什均衡,但是只有(3,3)是最稳定的
    在这里插入图片描述

    Subgame perfect Nash 均衡(SPNE)

    在所有的子树里面都最稳定的那个
    在这里插入图片描述

    贝叶斯博弈的纳什均衡

    在这里插入图片描述
    举例
    在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述

    纳什均衡的一些性质

    重复博弈

    一个陌生的玩家,我不知道你的策略,所以我要重复跟你玩游戏,然后学习。

    在这里插入图片描述

  • 相关阅读:
    手机软件开发价格的大概范围是什么?
    微服务架构 | 消息队列 - [常见坑] TBC...
    vmware中的linux虚拟机如何增加磁盘容量
    点餐小程序服务器怎么选
    linux内网服务器设置全局代理和yum代理
    【C++】C++ 入门
    《你的第一本哲学书》- 他人的意识
    【深度学习】(问题记录)<对一个变量求梯度得到什么>-线性回归-小批量随机梯度下降
    【力扣题:循环队列】
    程序员面试:未来五年的规划是怎样的?
  • 原文地址:https://blog.csdn.net/weixin_44769214/article/details/126358665