• 强化学习中这种loss图正常吗


    关注 码龄 粉丝数 原力等级 -- 被采纳 被点赞 采纳率 qq_44982704 2024-04-04 00:53 采纳率: 0% 浏览 10 首页/ 人工智能 / 强化学习中这种loss图正常吗 机器学习神经网络 我使用的是强化学习中的TD3算法,想问下这种actor网络的loss是正常的吗,因为看他们那些深度学习的loss都是逐渐下降然后稳定的,我这个虽然actor的loss它最后也逐渐稳定,但是它稳定的值比它的最低点要大[捂脸] 收起 写回答 好问题 0 提建议 追加酬金 关注问题 微信扫一扫 点击复制链接 分享 邀请回答 编辑 收藏 删除 结题 收藏 举报 追加酬金 (90%的用户在追加酬金后获得了解决方案) 当前问题酬金 ¥ 0 (可追加 ¥500) ¥ 15¥ 20¥ 50¥ 100¥ 200 支付方式 扫码支付 二维码出错 点击刷新 支付金额 15 元 提供问题酬金的用户不参与问题酬金结算和分配 支付即为同意 《付费问题酬金结算规则》 结题 再想想 删除 再等等

    1条回答 默认 最新

    • GISer Liu 2024-04-04 08:31
      关注

      该回答引用自GPT-3.5,由博主GISer Liu编写:

      根据您描述的情况,actor网络的loss在训练过程中逐渐稳定但最终稳定的值比最低点要大,这种情况可能是由于多种因素导致的,比如学习率设置不合适、网络结构设计不当、reward设计问题等。下面是一些可能的解决思路和方法:

      1. 学习率调整: 可以尝试降低actor网络的学习率,以更细致地调整网络参数,有助于loss逐渐下降并稳定在较低值。
      2. 网络结构设计: 考虑调整actor网络的结构,增加网络深度、宽度或使用更复杂的结构,以提高网络的表达能力。
      3. Reward设计: 检查reward的设计是否合理,reward的设计直接影响了强化学习的效果和收敛速度。
      4. 其他超参数调整: 可以尝试调整其他超参数,如批量大小、训练步长等,以获得更好的效果。
      5. 调试和分析: 通过输出更多的训练信息,比如每个训练步骤的reward值、actor网络输出的动作值等,可以更深入地分析问题所在,从而调整相应的参数和策略。
        在调整这些参数和策略时,建议逐步进行,先调整一个参数观察效果,再逐步调整其他参数,以免影响整体的训练效果。

      如果该回答解决了您的问题,请采纳!如果没有,请私信联系或评论您的疑惑

      评论
      编辑
      预览

      报告相同问题?

    • 相关阅读:
      青海、山西二建成绩公布 安徽二建有25033人合格进行公示
      揭秘关于TFRcord的五脏六腑
      QT中学习Opengl---(摄像机2)
      基于JAVA+SpringMVC+MYSQL的健身房后台管理系统
      进程间通信,SystemV共享内存
      计算机的六种连接方式
      最高月薪17K,每一个成功者都有一个开始。勇于开始,才能找到成功的路~
      强制不允许用户缩放页面
      183. 从不订购的客户—not in()、左连接
      C# 设计原则 之 开放封闭 原则
    • 原文地址:https://ask.csdn.net/questions/8083410