• 【DouZero】 强化学习+self play达到人类玩家斗地主水平。


    所解决的问题?

    解决斗地主游戏,斗地主中与围棋游戏很大的不同在于非完美信息、多玩家卡牌游戏、既带有合作又带有竞争。合法动作空间巨大( 1 0 4 10^{4} 104),与他同等级的有无限注德州扑克

    背景

    所采用的方法?

    作者总体采用的方式还是比较简单,可能是期望在单机上能够跑起来做的牺牲。但是效果还可以。论文中描述的三个步骤如下:

    首先就是基于策略 π \pi π去采样,得到的采样样本用来估计 Q Q Q值,对,这里没有什么花里胡哨的做法,直接就是基于采样的数据估计 Q ( s , a ) Q(s, a) Q(s,a)。细节可以描述为:对状态 s s s(自己的手牌,底牌,历史出牌序列)进行编码。计算合法出牌动作。根据训练好的模型Q(s, a)对合法动作进行打分,选择得分最高的动作进行出牌 a = a r g m a x a ∈ l e g a l Q ( s , a ) a = argmax_{a \in legal}Q(s, a) a=argmaxalegalQ(s,a)。整体的训练流程就是:AI对弈产生对局数据,将数据发送到训练器。使用训练数据通过梯度下降更新模型。

    第一步采样的时候采用的epsilon-greedy方法采样,也是有优化空间。

    剩下的就是看看作者如何编码状态和合法动作空间了:

    状态编码

    状态及动作编码:

    状态和动作都编码为上图所示的 4 × 15 4 \times 15 4×15的矩阵。

    之后作者将 4 × 15 4 \times 15 4×15的矩阵展平,也就是 1 × 60 1 \times 60 1×60, 由于只有一张大小王,因此会有6个位置始终为0,也就是每个矩阵可以转换成一个54维的向量。对于历史信息,我们考虑最近15步的历史信息,然后经过一个LSTM,不够的补0。具体特征表示如下:

    作者在这里不考虑花色,虽然说花色基本不带有额外信息,但是有时候地主出牌需要考虑三张底牌花色。

    当前手牌矩阵,地主牌矩阵,历史出牌序列矩阵,其他玩家出过的牌的矩阵,每位玩家剩余牌的数量,炸弹数量等等。历史出牌序列是只取了最近15轮的数据。

    动作是出牌矩阵。

    动作空间如下:

    神经网络采用简单的六层全连接网络。斗地主中,地主上家,地主下家会存在不同的出牌风格。因此DouZero中采用三个模型。地主、地主上家、地主下家。

    对于叫牌阶段,采用人类数据训练一个监督网络。叫牌阶段需要考虑的是自己的手牌和其它玩家的决策。叫牌阶段的特征如下:

    叫牌阶段作者的准确率可以达到83%。

    取得的效果?

    评估两个算法的时候,同一套牌,会评估两次,算法 A A A玩农民,算法 B B B玩地主和算法 B B B玩农民,算法 A A A玩地主。实验结果如下:

    这里采用了两种衡量指标,一种是WP、另一种是ADP。

    作者在实验中,最多采用了45个进程采样,并且作者发现,训练效率和模拟器几乎成线性正比的。

    在4张卡的1080Ti上,48个CPU核,两天打败人类监督数据学习得到的模型。

    这个监督的模型是采用,快手的斗地主上较好的人类玩家数据,训练二分类得到的。负样本是合法的动作,但是并未被采纳的。batch size为8096,决策的时候选择分数最高的那个合法动作。

    斗地主这个游戏本身是存在非常的的运气成分的,所以高几个百分点就代表了水平的很大的提高了。

    所出版信息?作者信息?

    ICML2021上的一篇文章。一作是莱斯大学的在读博士生查道琛。共同一作谢静如,美国密歇根大学物理学博士。

    参考链接

  • 相关阅读:
    概率论与数理统计学习:随机事件(二)——知识总结与C语言实现案例
    《21天精通TypeScript-5》类型注解与原始类型
    原生JS实现拖拽排序
    GCC - 基于win10平台搭建Cmake + MinGW + gcc-arm-none 开源开发环境
    【面试题精讲】Java 和 C++ 的区别?
    【算法】算法题-20231118
    备战数学建模33-灰色预测模型2
    五张图带你理解 RocketMQ 顺序消息实现机制
    Python中import机制
    QT -C++小写转换成大写-QPushButton-setGeometry-QLineEdit-信号与槽
  • 原文地址:https://blog.csdn.net/weixin_39059031/article/details/126771811