码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 【论文笔记】Population Based Training of Neural Networks(PBT)


    文章目录

      • 论文介绍
      • 自己体会

    论文介绍

    谷歌DeepMind团队在2017年文章《Population Based Training of Neural Networks》中提出的PBT算法,看似比较简单和朴素,但是在实际应用中结果表现良好。

    论文链接:https://arxiv.org/pdf/1711.09846v2.pdf
    论文源码:(没有官方的)https://paperswithcode.com/paper/population-based-training-of-neural-networks

    在这里插入图片描述

    自己体会

    介绍这篇论文的文章蛮多了,我争取说一些别人没有提到的点。

    其它同学的参考链接:
    https://blog.csdn.net/jinzhuojun/article/details/100047416
    https://zhuanlan.zhihu.com/p/313792467
    https://www.cnblogs.com/initial-h/p/10519150.html

    算法核心框图:
    在这里插入图片描述

    在博弈中,常常会因为“策略的旋度(non-transitive)”导致学到的策略循环往复,最后什么都没有学到的情况。比如石头剪刀布游戏中,如果只用简单的self-play 方式训练best response,就会在 一直出石头->一直出布->一直出剪刀->一直出石头的循环中浪费算力。

    在《Real World Games Look Like Spinning Tops》一文中提到过,策略有Transitive和non-transitive两部分,从某个角度看,整个策略集合就像一个陀螺,而一个博弈中,绝大部分的策略都属于中间有着极大策略旋度的地方。对处于策略旋度较大的策略生成best-response时,主要梯度方向会是水平方向的(沿着non-transitive方向),这是我们训练策略时不愿意看到的。

    这就导致最终选择出来的策略,在Transitive方向可能并没有提升,甚至可能会是负提升。而且,在引入了神经网络之后,self-play并不能保证策略向着纳什均衡解的方向前进。
    在这里插入图片描述

    如论文中这张图所示,很多训练方式如self-play,都必须在原本的智能体具有一定水平时,才能够保证生效。

    Go 是self-play声名鹊起的重要原因之一。它能够有很好效果的原因,可能在于围棋本身是一个non-transitive分量很小的游戏,很少有长期打不过低级别选手却能打赢高级别选手的案例。面对更加复杂的游戏,可能就会有更多的“transitive”分量了。

    在这里插入图片描述

    而PBT这篇文章,提出的模型训练方式其实有一点“帕累托改进”的意味,或者有点像Double DQN里面“胜者诅咒”导致的过估计。如果种群足够大,从种群中选择出“最能打”的Agent,确实是可以做到,大概率会在transitive方向有分量的,这个概率远远大于传统基于self-play在transitive上有提升的概率。

    另外,不难证明,如果游戏的策略旋度越大,则方差越大,用PBT求解时,种群基数就要越大。

  • 相关阅读:
    【数据结构】排序:经典排序算法原理解析与优劣对比
    汽车流通行业4S门店生存性指标:零服吸收率
    进程环境~
    seata-server-1.5.2的部署
    JS语句完全攻略
    命令行程序测试自动化
    作为一名后端工程师,你知道Redis为什么这么快吗?
    自动化控制系统的设计重点是什么?
    硬技能之上的软技巧(三)
    [附源码]Java计算机毕业设计SSM高校国防教育管理系统
  • 原文地址:https://blog.csdn.net/Xixo0628/article/details/126607729
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号