博弈论(英语:Game Theory),又译为对策论或赛局理论,是经济学的一个分支,1944年冯·诺伊曼与奥斯卡·摩根斯特恩合著《博弈论与经济行为》,标志着现代系统博弈理论的的初步形成,因此他们被称为“博弈论之父”。博弈论被认为是20世纪经济学最伟大的成果之一。目前可以应用在生物学、经济学、国际关系、计算机科学、政治学、军事战略,研究游戏或者博弈内的相互作用,是研究具有斗争或竞争性质现象的数学理论和方法。也是运筹学的一个重要学科。 现代的博弈论的源头是约翰·冯·诺伊曼对于双人零和博弈的混合策略均衡点的发想和证明。
具有竞争或对抗性质的行为称为博弈行为。在这类行为中,参加斗争或竞争的各方各自具有不同的目标或利益。为了达到各自的目标和利益,各方必须考虑对手的各种可能的行动方案,并力图选取对自己最为有利或最为合理的方案。比如日常生活中的下棋,打牌等。博弈论就是研究博弈行为中斗争各方是否存在着最合理的行为方案,以及如何找到这个合理的行为方案的数学理论和方法。
博弈的分类根据不同的基准也有不同的分类。一般认为,博弈主要可以分为合作博弈和非合作博弈。它们的区别在于相互发生作用的当事人之间有没有一个具有约束力的协议,如果有,就是合作博弈,如果没有,就是非合作博弈。
非合作博弈又分为:完全信息静态博弈,完全信息动态博弈,不完全信息静态博弈,不完全信息动态博弈。与上述四种博弈相对应的均衡概念为:纳什均衡、子博弈精炼纳什均衡、贝叶斯纳什均衡、精炼贝叶斯纳什均衡(perfect Bayesian Nash equilibrium)。
零和博弈表示所有博弈方的利益之和为零或一个常数,即一方有收入,其他方必有所失。在零和博弈中,博弈各方是不合作的。
在零和属性(如果味方得益,敌方必然蒙受损失)下,是指结果是零和的情况下会出现帕累托最优的现象。反过来说,全体参加者可得益或受损的情况被称为非零和博弈。
纳什均衡(英语:Nash equilibrium,或称纳什均衡点)是指在包含两个或以上参与者的非合作博弈(Non-cooperative game)中,假设每个参与者都知道其他参与者的均衡策略的情况下,没有参与者可以透过改变自身策略使自身受益时的一个概念解。[1]该术语以约翰·福布斯·纳什命名。在博弈论中,如果每个参与者都选择了自己的策略,并且没有玩家可以透过改变策略而其他参与者保持不变而获益,那么当前的策略选择的集合及其相应的结果构成了纳什均衡。
——————————————————————————
Riccati equation:
微分博弈是指在时间连续的系统内,多个参与者进行持续的博弈,力图最优化各自独立、冲突的目标,最终获得各参与者随时间演变的策略并达到纳什均衡,即任何参与者都没有单独改变策略的意愿。
动态博弈(dynamic game)是指参与人的行动有先后顺序,而且行动在后者可以观察到行动在先者的选择,并据此做出相应的选择。这种博弈无论如何都无法看做同时决策,所以叫做动态博弈,也称“多阶段博弈”。
从纳什均衡的定义出发,我们可以理解每个智能体都考虑自己的成本函数,其性能不能通过改变控制策略来无限提高
此外,纳什均衡表明,这两个智能体具有相同的层次水平。这是一种联合策略,这样每个策略都是对其他[的最佳反应。
斯塔克尔堡Stackelberg均衡意味着一个主体总是寻求最小化它自己的成本函数,而另一个主体则寻求在最小化它自己的成本函数之前最小化这个成本函数。这个标准导致了一个领导者-追随者框架(与相同的层次水平相比),这是不希望的
帕累托Pareto 均衡意味着,如果任何一个代理使用了该均衡以外的控制策略,那么它自己的成本函数或另一个的成本函数都将会增加。这个标准表明,每个智能体都试图帮助对方,因此它需要额外的协议(合作)来实现平衡。
——————————————————————————————————————
2022.10.28
从行为的时间序列性,博弈论进一步分为两类:
静态博弈是指在博弈中,参与人同时选择或虽非同时选择但后行动者并不知道先行动者采取了什么具体行动;
动态博弈是指在博弈中,参与人的行动有先后顺序,且后行动者能够观察到先行动者所选择的行动。
通俗的理解:“囚徒困境”就是同时决策的,属于静态博弈;而棋牌类游戏等决策或行动有先后次序的,属于动态博弈。