码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 强化学习:资料整理


    强化学习(英語:Reinforcement learning,簡稱RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益[1]。强化学习是除了监督学习和非监督学习之外的第三种基本的机器学习方法。与监督学习不同的是,强化学习不需要带标签的输入输出对,同时也无需对非最优解的精确地纠正。其关注点在于寻找探索(对未知领域的)和利用(对已有知识的)的平衡[2],强化学习中的“探索-利用”的交换,在多臂老虎机(英语:multi-armed bandit)问题和有限MDP中研究得最多。

    其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。这个方法具有普适性,因此在其他许多领域都有研究,例如博弈论、控制论、运筹学、信息论、仿真优化、多智能体系统、群体智能、统计学以及遗传算法。在运筹学和控制理论研究的语境下,强化学习被称作“近似动态规划”(approximate dynamic programming,ADP)。在最优控制理论中也有研究这个问题,虽然大部分的研究是关于最优解的存在和特性,并非是学习或者近似方面。在经济学和博弈论中,强化学习被用来解释在有限理性的条件下如何出现平衡。

    在机器学习问题中,环境通常被抽象为马尔可夫决策过程(Markov decision processes,MDP),因为很多强化学习算法在这种假设下才能使用动态规划的方法[3]。传统的动态规划方法和强化学习算法的主要区别是,后者不需要关于MDP的知识,而且针对无法找到确切方法的大规模MDP。[4]

    强化学习已经在诸如博弈论、控制论、运筹学、信息论、仿真优化、多智能体、群体智能和统计学等领域有了深入研究。在运筹学和控制文献中,强化学习被称为近似动态规划或神经动态规划。强化学习所感兴趣的问题在最优控制(一种关注最优解的存在性、表示和求解的理论,但较少涉及学习和近似)中也有所研究,尤其是环境的数学模型难以求得的时候。在经济学和博弈论中,强化学习可能被用来解释在有限的理性(rationality)下如何达到平衡状态。

    常用算法编辑

    蒙特卡洛学习 Monte-Carlo Learning

    Temporal-Difference Learning

    SARSA算法

    Q学习

    强化学习工具箱

    使用强化学习设计和训练策略

    Reinforcement Learning Toolbox™ 提供应用程序、函数和 Simulink ®模块,用于使用强化学习算法(包括 DQN、PPO、SAC 和 DDPG)训练策略。您可以使用这些策略为复杂的应用程序(例如资源分配、机器人和自治系统)实施控制器和决策算法。

    该工具箱让您可以使用深度神经网络或查找表来表示策略和价值函数,并通过与在 MATLAB® 或 Simulink 中建模的环境进行交互来训练它们。您可以评估工具箱中提供的单智能体或多智能体强化学习算法或开发自己的算法。您可以通过应用程序以交互方式或以编程方式试验超参数设置、监控训练进度并模拟训练有素的代理。为了提高训练性能,模拟可以在多个 CPU、GPU、计算机集群和云上并行运行(使用 Parallel Computing Toolbox™ 和MATLAB Parallel Server™)。

    通过 ONNX™ 模型格式,可以从 TensorFlow™ Keras 和 PyTorch(使用 Deep Learning Toolbox™)等深度学习框架导入现有策略。您可以生成优化的 C、C++ 和 CUDA ®代码,以在微控制器和 GPU 上部署经过训练的策略。

    学习文档可参考:

    Reinforcement Learning ToolboxDocumentation- MathWorks 中国Reinforcement Learning Toolbox provides an app, functions, and a Simulink block for training policies using reinforcement learning algorithms, including DQN, PPO, SAC, and DDPG.icon-default.png?t=M666https://ww2.mathworks.cn/help/reinforcement-learning/index.html

  • 相关阅读:
    Seata源码研读#01-详解配置管理机制
    软考高项考试历程回顾
    紧固行业内卷严重,张友君的飞沃科技能独善其身吗?
    【DL】时间序列的深度学习
    使用Xshell远程连接虚拟机的linux
    mmdetection常见报错以及解决方案汇总
    C专家编程 第5章 对链接的思考 5.1 函数库、链接和载入
    仿黑马点评-redis整合【三、缓存工具封装】
    如何实现一个sync.Once
    [ C++ ] STL_list 使用及其模拟实现
  • 原文地址:https://blog.csdn.net/weixin_51367832/article/details/126370854
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号