【强化学习】day1 强化学习基础、马尔可夫决策过程、表格型方法

【强化学习】day1 强化学习基础、马尔可夫决策过程、表格型方法

写在最前：参加DataWhale十一月组队学习记录

【教程地址】
https://github.com/datawhalechina/joyrl-book
https://datawhalechina.github.io/easy-rl/
https://linklearner.com/learn/detail/91

强化学习

强化学习是一种重要的机器学习方法，它使得智能体能够在环境中做出决策以达成特定目标。在这篇博客中，我们将深入探讨强化学习的三个关键领域：基础知识、马尔可夫决策过程和表格型方法。

第1章强化学习基础

在本章中，我们将介绍强化学习的基本概念，包括智能体(agent)、环境(environment)、奖励(reward)和策略(policy)。我们将探讨这些概念如何共同作用，以及它们在学习过程中的重要性。

智能体和环境

 奖励系统

 策略的概念

 第 2 章马尔可夫决策过程

马尔可夫决策过程(MDP)是强化学习中的一个核心概念。我们将讨论状态(state)、动作(action)、转移概率(transition probability)等关键要素，以及如何通过这些要素来建模决策过程。

MDP的定义

 状态和动作

 转移概率和奖励函数

 第 3 章表格型方法

在许多强化学习问题中，表格型方法是解决问题的第一步。我们将探索如何使用表格来存储和更新有关状态和动作的信息，以及这些方法如何在实际问题中应用。

表格型学习的基础

 动态规划

 蒙特卡洛方法和时间差分学习
相关阅读:
JVM调优必备理论知识-GC Collector-三色标记
 C#控件开源库：MetroFramework的下载
 golang工程中间件——redis常用结构及应用（set,zset）
pandas教程：Pivot Tables and Cross-Tabulation 数据透视表和交叉表
 链接装载与库：第八章——Linux共享库组织
 Java(97)Java的JNI学习(一)
专业五月考自测
 全球首个“AI程序员”Deven诞生，真的能替代人类程序员吗？
【地铁上的面试题】--基础部分--数据结构与算法--数组和链表
 vite 使用本地 ip + localhost 访问服务
原文地址：https://blog.csdn.net/weixin_42914989/article/details/134432717

强化学习

第1章 强化学习基础

智能体和环境

奖励系统

策略的概念

第 2 章 马尔可夫决策过程

MDP的定义

状态和动作

转移概率和奖励函数

第 3 章 表格型方法

表格型学习的基础

动态规划

蒙特卡洛方法和时间差分学习

第1章强化学习基础

第 2 章马尔可夫决策过程

第 3 章表格型方法