• 深度强化学习(Deep Reinforcement Learning, DRL)阶段性学习汇总(二)


    深度强化学习里程碑事件

    介绍完深度强化学习的背景后,我们来看一下深度强化学习的发展历程,以及里程碑事件

    深度强化学习(Deep Reinforcement Learning, DRL)的发展历程是人工智能领域中的一个重要分支,它结合了深度学习和强化学习的优势。以下是DRL发展的一些关键里程碑:

    1. 2015年 - Deep Q-Network (DQN):

      • DeepMind团队发表了关于DQN的研究,这是一种结合了深度学习和Q-learning的算法。DQN通过经验回放和目标网络技术,在Atari 2600视频游戏中取得了超越人类水平的表现,这标志着深度强化学习作为一个领域的兴起。
    2. 2016年 - Asynchronous Advantage Actor-Critic (A3C):

      • DeepMind提出了A3C算法,这是一种并行化的强化学习方法,可以在多个环境中同时学习,从而提高数据效率和训练稳定性。A3C在多种基准任务上取得了优异的性能。
    3. 2016年 - AlphaGo:

      • DeepMind的AlphaGo程序在围棋这项古老而复杂的游戏中击败了世界冠军李世石。AlphaGo结合了深度学习和蒙特卡洛树搜索(MCTS),是深度强化学习在游戏领域的一个里程碑。
    4. 2017年 - Proximal Policy Optimization (PPO):

      • OpenAI提出了PPO算法,这是一种策略梯度方法,通过限制更新步骤的大小来提高稳定性。PPO在连续控制任务和离散动作任务上都表现出色,并因其实现简单和稳定性好而广受欢迎。
    5. 2018年 - AlphaZero:

      • DeepMind的AlphaZero是AlphaGo的后继者,它通过自我对弈从零开始学习,在围棋、国际象棋和日本将棋上都达到了超越人类专家的水平。
    6. 2019年 - OpenAI Five:

      • OpenAI的OpenAI Five是一个使用强化学习训练的Dota 2游戏AI,它在国际比赛中击败了专业团队,展示了深度强化学习在复杂团队游戏中的潜力。
    7. 2020年及以后:

      • 深度强化学习继续在自动驾驶、机器人技术、自然语言处理等领域取得进展。同时,研究也在不断进行,以解决DRL的样本效率、稳定性和解释性问题。

    深度强化学习概念

    待更新

  • 相关阅读:
    支配世界的几个重要算法
    如何进入 mysql?
    XShell连接VMWare虚拟机
    linux中构建一个launch文件
    基于Vite创建一个Vue2项目
    Spring——AOP用到的代理模式
    PanTools v1.0.27 多网盘批量管理、遍历分享、转存、重命名、复制...
    使用Python将MySQL查询结果导出到Excel(xlsxwriter)
    element-ui 中 el-tree 和 el-table 样式调整
    [数据可视化] 霍乱时期的可视化医师
  • 原文地址:https://blog.csdn.net/xcs166357/article/details/139408206