【博弈论】基础知识

1 策略式博弈

策略式博弈 又称 静态博弈，它是一次博弈。策略式博弈 $G$ 形式化表示为：
$G=\left\{N,\left\{A_{i}\right\}_{i=1}^{N},\left\{u_{i}\right\}_{i=1}^{N}\right\}$
其中：

$N$ ：玩家集，所有玩家的有限集合；
$A_{i}$ ：玩家 $i$ 的策略集：表示玩家 $i$ 可选择的策略的集合；
$u_i$ ：玩家 $i$ 的收益函数： $A_{1} \times A_{2} \times \ldots A_{N} \rightarrow R$ 表示在一组策略下的收益。

完全信息静态博弈 具有以下特点：

非合作博弈
同时行动（simultaneous move）：所有玩家同时做出策略选择。在选择策略时不知道其他玩家的策略选择
完全信息（complete information）：每个玩家的的策略和收益函数都是所有玩家的共同知识（common knowledge）

非完全信息静态博弈（也称 静态贝叶斯博弈）具有以下特点：

非合作博弈
同时行动（simultaneous move）：所有玩家同时做出策略选择。在选择策略时不知道其他玩家的策略选择
非完全信息（incomplete information）：至少有一个玩家不能准确地知道其他某个玩家的收益函数。

以 囚徒困境 为例：

完全信息静态博弈：

两名犯罪嫌疑人被抓捕，被关到不同的牢房，但警方无充足证据，两名嫌疑人被告知：

若双方都不坦白，则均被判一个月；
若双方都坦白，则均被判六个月；
若一方坦白而另一方不坦白，则坦白一方释放，不坦白一方被判九个月。

可以使用双变量矩阵来表示二者的收益：

非完全信息静态博弈：

两名犯罪嫌疑人被抓捕，被关到不同的牢房，但警方无充足证据，两名嫌疑人被告知：

若双方都不坦白，则均被判一个月；
若双方都坦白，则均被判六个月；
若一方坦白而另一方不坦白，则坦白一方释放，不坦白一方被判九个月。

除此之外，还有额外需要注意的：

Prisoner 1 总是理性的，即自私的
Prisoner 2 可能是理性的，也可能是利他的，取决于他的心情
当 Prisoner 2 是利他时，那么他更偏好不坦白，他认为坦白等于“额外入狱四个月”
Prisoner 1 不能准确地判断 Prisoner 2 是利己的还是利他的，但他能推断 Prisoner 2 理性的概率为 0.8，利他的概率为 0.2。

2 扩展式博弈

扩展式博弈，也称 动态博弈，它与策略博弈相对应。在扩展式博弈中，玩家是轮流进行决策的，通常可用 博弈树 将其刻画。

博弈树由结点 (node)和边 (edge)组成，对应博弈玩家、策略和收益。

非叶子结点：代表 博弈玩家，表示这个时候哪个博弈玩家做出决策。每个非叶子结点有且仅有一个博弈玩家。
叶子结点：代表每个玩家在此时的收益。收益只存在于叶子结点。
边：表示策略

在这里插入图片描述

扩展式博弈 $G$ 形式化表示为：
$G=\left\{N, H, P,\left\{u_{i}\right\}\right\}$
其中：

$N$ 为玩家集合；
$H$ 为“策略的序列”构成的集合，可以是有限集或者无限集。 $H$ 中的元素称为历史 (history)。性质包括：
- $\emptyset \in H$ ，表示博弈树的根结点。
- 如果策略序列 $a^{1} a^{2} \ldots a^{k} \in H$ 并且 $s < k$ ，那么 $a^{1} a^{2} \ldots a^{s} \in H$
- 如果无穷策略序列 $\left(a^{k}\right)_{k=1}^{\infty}$ 满足对于任意的 $k$ ， $a^{1} a^{2} \ldots a^{k} \in H$ ，那么 $\left(a^{k}\right)_{k=1}^{\infty} \in H$
- 每一条历史序列都对应博弈树的一个结点，对应历史序列末端到达的结点
- 在完全信息扩展式博弈中，历史集大小=结点个数
- 最终历史集(Terminal history set)： $Z$ = {All Terminal history}，在这些结点上是收益
$P$ 为博弈玩家函数(Player Function)：
- $\ Z → N P: H \backslash Z \rightarrow N$ 给每一个非终结历史分配玩家集 $N$ 中的一个元素
- $P (h)$ 表示在历史 $h$ 后，轮到哪个玩家做决策
$u_i$ 为收益函数，表示第 $i$ 个玩家的收益

3 纳什均衡

继续上面 完全信息静态博弈 的囚徒困境的例子。我们先站在犯人1的角度思考：

如果2坦白了，我选择坦白，则收益为-6；如果我不选择坦白，则收益为-9。因此我会选择坦白；
如果2不坦白，我选择坦白，则收益为0；如果我不选择坦白，则收益为-9，因此我会选择坦白。

同时，犯人2也会这么想。因此二者都会坦白。

最优反应：当对手策略选定的时候，玩家会调整自己的策略，使得自己的收益在几种策略选择中是最大的。

纳什均衡：任何一位玩家在此策略组合下单方面改变自己的策略（其他玩家策略不变）都不会提高自身的收益。

也就是每个玩家的策略都是 最佳反应 的时候，就会形成一个稳定的局面，即达到 纳什均衡。

纳什均衡的形式化定义如下：

纳什均衡是博弈结果 $a^{*}=\left(a_{1}^{*}, a_{2}^{*}, \ldots, a_{N}^{*}\right)$ ，即对每个玩家 $i$ 都有：
$u_{i}\left(a_{i}^{*}, a_{-i}^{*}\right) \geq u_{i}\left(a_{i}, a_{-i}^{*}\right)$
因此，我们可以 通过寻找同时满足所有人的最佳反应的博弈结果，来求解纳什均衡。

Reference

https://zhuanlan.zhihu.com/p/148407108

https://zhiqianghe.blog.csdn.net/article/details/107330041

https://www.docin.com/p-2590113104.html

https://zhuanlan.zhihu.com/p/199047997

相关阅读:
Threejs_02 父子位移+缩放改变
NX/UG二次开发—UF_MODL_ask_bounding_box_exact浅析
JWT 使用入门（二）token有效期
6条优势，anzo capital昂首资本相信MT5替代MT4的原因
git的使用
云原生之使用Docker部署slash书签共享平台
自学Python06-学会Python中的while循环语句
为您的SSH提提速
大数据-玩转数据-Python几种数据采集
python算法例14 整数加法

原文地址：https://blog.csdn.net/weixin_41960890/article/details/125412843