策略式博弈 又称 静态博弈,它是 一次 博弈。策略式博弈
G
G
G 形式化表示为:
G
=
{
N
,
{
A
i
}
i
=
1
N
,
{
u
i
}
i
=
1
N
}
G=\left\{N,\left\{A_{i}\right\}_{i=1}^{N},\left\{u_{i}\right\}_{i=1}^{N}\right\}
G={N,{Ai}i=1N,{ui}i=1N}
其中:
完全信息静态博弈 具有以下特点:
非完全信息静态博弈(也称 静态贝叶斯博弈)具有以下特点:
以 囚徒困境 为例:
完全信息静态博弈:
两名犯罪嫌疑人被抓捕,被关到不同的牢房,但警方无充足证据,两名嫌疑人被告知:
- 若双方都不坦白,则均被判一个月;
- 若双方都坦白,则均被判六个月;
- 若一方坦白而另一方不坦白,则坦白一方释放,不坦白一方被判九个月。
可以使用双变量矩阵来表示二者的收益:
非完全信息静态博弈:
两名犯罪嫌疑人被抓捕,被关到不同的牢房,但警方无充足证据,两名嫌疑人被告知:
- 若双方都不坦白,则均被判一个月;
- 若双方都坦白,则均被判六个月;
- 若一方坦白而另一方不坦白,则坦白一方释放,不坦白一方被判九个月。
除此之外,还有额外需要注意的:
- Prisoner 1 总是理性的,即自私的
- Prisoner 2 可能是理性的,也可能是利他的,取决于他的心情
- 当 Prisoner 2 是利他时,那么他更偏好不坦白,他认为坦白等于“额外入狱四个月”
- Prisoner 1 不能准确地判断 Prisoner 2 是利己的还是利他的,但他能推断 Prisoner 2 理性的概率为 0.8,利他的概率为 0.2。
扩展式博弈,也称 动态博弈,它与策略博弈相对应。在扩展式博弈中,玩家是轮流进行决策的,通常可用 博弈树 将其刻画。
博弈树由 结点 (node)和 边 (edge)组成,对应博弈玩家、策略和收益。

扩展式博弈
G
G
G 形式化表示为:
G
=
{
N
,
H
,
P
,
{
u
i
}
}
G=\left\{N, H, P,\left\{u_{i}\right\}\right\}
G={N,H,P,{ui}}
其中:
继续上面 完全信息静态博弈 的囚徒困境的例子。我们先站在犯人1的角度思考:
同时,犯人2也会这么想。因此二者都会坦白。
最优反应:当对手策略选定的时候,玩家会调整自己的策略,使得自己的收益在几种策略选择中是最大的。
纳什均衡:任何一位玩家在此策略组合下单方面改变自己的策略(其他玩家策略不变)都不会提高自身的收益。
也就是每个玩家的策略都是 最佳反应 的时候,就会形成一个稳定的局面,即达到 纳什均衡。
纳什均衡的形式化定义如下:
纳什均衡是博弈结果
a
∗
=
(
a
1
∗
,
a
2
∗
,
…
,
a
N
∗
)
a^{*}=\left(a_{1}^{*}, a_{2}^{*}, \ldots, a_{N}^{*}\right)
a∗=(a1∗,a2∗,…,aN∗),即对每个玩家
i
i
i 都有:
u
i
(
a
i
∗
,
a
−
i
∗
)
≥
u
i
(
a
i
,
a
−
i
∗
)
u_{i}\left(a_{i}^{*}, a_{-i}^{*}\right) \geq u_{i}\left(a_{i}, a_{-i}^{*}\right)
ui(ai∗,a−i∗)≥ui(ai,a−i∗)
因此,我们可以 通过寻找同时满足所有人的最佳反应的博弈结果,来求解纳什均衡。
https://zhuanlan.zhihu.com/p/148407108
https://zhiqianghe.blog.csdn.net/article/details/107330041
https://www.docin.com/p-2590113104.html
https://zhuanlan.zhihu.com/p/199047997