TD3算法 - 码农知识堂 - 文章详情页

TD3算法
TD3算法

全称Twin Delayed DDPG，是对DDPG算法的继承、发展和改进，论文

改进如下：
- $\mathcal{T}win$ ：使用了两个critic来评估actor的动作价值，对应两个critic target，一个actor target，因此总共有6个神经网络。
- $\mathcal{D} elayed$ ：critic参数更新几次之后，才更新actor参数，并把参数同步给各自的target
- 使用较小的 $Q_{target}$ 值更新critic参数，这是为了防止critic "评分"过高，使得actor “骄傲”
算法伪代码
相关阅读:
vue项目中使用 NProgress 进度加载插件
 Shader Graph25-UV移动旋转缩放（自定义函数）
学习笔记|秩相关分析|Spearman相关分析|Kendall相关分析|规范表达|《小白爱上SPSS》课程：SPSS第十九讲：秩相关分析怎么做？
【Vue】Vue的v-if、v-if-else、v-else-if、v-show的使用
 Excel基础2
链表【Linked List】
MVCC和BufferPool缓存机制
 一种基于遗传算法与神经网络算法(GA-BP)的新冠肺炎模型预测-含Matlab代码
 代码随想录第43天|416. 分割等和子集，1049. 最后一块石头的重量 II， 494.目标和， 474.一和零（一窍不通）
NX二次开发：保存时导出PDF并打开
原文地址：https://blog.csdn.net/qq_51352578/article/details/132721507