强化学习中这种loss图正常吗

关注码龄粉丝数原力等级 -- 被采纳被点赞采纳率 qq_44982704 2024-04-04 00:53 采纳率: 0% 浏览 10 首页/ 人工智能 / 强化学习中这种loss图正常吗机器学习神经网络我使用的是强化学习中的TD3算法，想问下这种actor网络的loss是正常的吗，因为看他们那些深度学习的loss都是逐渐下降然后稳定的，我这个虽然actor的loss它最后也逐渐稳定，但是它稳定的值比它的最低点要大[捂脸] 收起写回答好问题 0 提建议追加酬金关注问题微信扫一扫点击复制链接分享邀请回答编辑收藏删除结题收藏举报追加酬金 (90%的用户在追加酬金后获得了解决方案) 当前问题酬金 ¥ 0 (可追加 ¥500） ¥ 15¥ 20¥ 50¥ 100¥ 200 支付方式扫码支付二维码出错点击刷新支付金额 15 元提供问题酬金的用户不参与问题酬金结算和分配支付即为同意《付费问题酬金结算规则》结题再想想删除再等等

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
GISer Liu 2024-04-04 08:31
关注
该回答引用自GPT-3.5,由博主GISer Liu编写：

根据您描述的情况，actor网络的loss在训练过程中逐渐稳定但最终稳定的值比最低点要大，这种情况可能是由于多种因素导致的，比如学习率设置不合适、网络结构设计不当、reward设计问题等。下面是一些可能的解决思路和方法：

学习率调整： 可以尝试降低actor网络的学习率，以更细致地调整网络参数，有助于loss逐渐下降并稳定在较低值。
网络结构设计： 考虑调整actor网络的结构，增加网络深度、宽度或使用更复杂的结构，以提高网络的表达能力。
Reward设计： 检查reward的设计是否合理，reward的设计直接影响了强化学习的效果和收敛速度。
其他超参数调整： 可以尝试调整其他超参数，如批量大小、训练步长等，以获得更好的效果。
调试和分析： 通过输出更多的训练信息，比如每个训练步骤的reward值、actor网络输出的动作值等，可以更深入地分析问题所在，从而调整相应的参数和策略。
在调整这些参数和策略时，建议逐步进行，先调整一个参数观察效果，再逐步调整其他参数，以免影响整体的训练效果。

如果该回答解决了您的问题，请采纳！如果没有，请私信联系或评论您的疑惑
解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

编辑

预览

报告相同问题？

关注问题

相关阅读:
青海、山西二建成绩公布安徽二建有25033人合格进行公示
揭秘关于TFRcord的五脏六腑
QT中学习Opengl---（摄像机2）
基于JAVA+SpringMVC+MYSQL的健身房后台管理系统
进程间通信，SystemV共享内存
计算机的六种连接方式
最高月薪17K，每一个成功者都有一个开始。勇于开始,才能找到成功的路~
强制不允许用户缩放页面
183. 从不订购的客户—not in()、左连接
C# 设计原则之开放封闭原则

原文地址：https://ask.csdn.net/questions/8083410

强化学习中这种loss图正常吗

1条回答 默认 最新

1条回答默认最新