强化学习输入数据归一化（标准化）

对于强化学习，其输入数据一般是指状态以及动作。关于它们的归一化（标准化）操作，可以总结如下：

1.若输入状态是图像或者包含图像，那么针对图像信息，常见的归一化方式是除以255，效果与减去均值，除以方差的效果接近

2.若输入是普通的数值（非图像），归一化的方式为：每一次训练前对经验池所有的数据算固定的均值和方差来做为本次训练的唯一归一化参数。相关链接：强化学习需要批归一化(Batch Norm) 或归一化吗？ - 知乎

除此之外，还看到另一种方式：在训练开始前，用随机动作与环境交互数个回合，然后用这个过程中获得的状态信息去计算均值和方差来做为本次训练的唯一归一化参数。

3.对于动作来说：在动作空间是连续的情况下，一个设计得好的环境，其 action 的均值方差最好接近0和1。要做到这点非常容易，例如我将动作空间定为 -1到 1。相关链接：强化学习需要批归一化(Batch Norm) 或归一化吗？ - 知乎

相关阅读:
白捡一个存储型XSS
软件测试 | 当面试时被问到“搭建过测试环境吗”，身为小白要怎么回答？
为了摆脱 Android ，亚马逊开发基于Linux的操作系统
MFC Windows 程序设计[127]之菜单初体验
护网蓝队/红队面试题汇总
代码随想录算法训练营第五十七天 | 392.判断子序列、115.不同的子序列
C++11 - 4 -万能引用
一种基于多尺度密集递归融合网络的图像超分辨率新算法
深度学习中模块设计汇总（一）
vue大型电商项目尚品汇（前台篇）day02

原文地址：https://blog.csdn.net/qq_31239371/article/details/132792632