码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 【求助】基于Ascend910的MindSpore训练无法复现GPU上的模型效果


    很简单的卷积下采样模型,两层卷积+ReLU

    【训练环境】

    1、Ascend910

    2、MindSpore1.1.1

    【问题描述】

    使用相同的训练数据和训练流程,在Ascend上训练卷积下采样模型,一直无法复现在GPU上训练出的模型效果,在同一个测试集上的测试MS-SSIM有0.15的差距(0.945 VS 0.96)。

    而且观察到一个现象:loss用的是MS-SSIM loss,在GPU上训使用的lr是0.00001,最终是可以收敛的,但是在Ascend910上训练的时候,还是用0.00001这个lr,训练十几个epoch之后,loss反而会上升,无法收敛。将lr调整到0.0000001之后训练可以收敛,但是最终模型效果无法达到GPU上的模型效果。

    按理说,只是训练这么简单的模型,Ascend和GPU应该不会有这么大的差距才对,现在有几个问题想求助一下:

    1、使用MindSpore训练的时候,有没有一些调优的trick?

    2、因为loss使用的是MindSpore自带的Function mindspore.nn.MSSSIM 自己实现的loss,这种方式是否有问题?MindSpore内置的mindspore.nn.MSSSIM实现方式上和GPU上的MSSSIM计算方式是否有差异?下面是自定义的MS-SSIM loss实现:

    3、精度的不同是否会影响实际的loss的效果?比如:在fp16精度下,MS-SSIM loss的效果是否会降低?

    4、有哪些原因可能导致基于Ascend的MindSpore的训练结果无法复现GPU(Pytorch)上的结果?

    从你上面的描述来看,如果使用的是fp16的或者混合精度的话,可能有一些算子有溢出的情况,建议参考https://www.mindspore.cn/doc/api_python/zh-CN/r1.1/mindspore/mindspore.html?highlight=lossscale#mindspore.DynamicLossScaleManager 添加LossScale或者参考使能自动混合精度 — MindSpore r1.1 documentation 使用自动混合精度或者手动混合精度,需要注意的是如果算子中有exp操作的话比较容易溢出,可以排查下是否有这样的算子使用了fp16,有的话建议使用手动混合精度改成fp32的

  • 相关阅读:
    codeforces600E Lomsat gelral【线段树合并/DSU】
    spring-cloud和spring-cloud-alibaba的关系
    12 - DEM故障处理分析
    js设计模式:适配器模式
    大模型从入门到应用——LangChain:代理(Agents)-[计划与执行]
    剑指offer——JZ68 二叉搜索树的最近公共祖先 解题思路与具体代码【C++】
    idea连接远程k8s集群使用kubernetes-client
    Mysql 都有那些最需要掌握的原理?
    详探XSS PayIoad
    关于maven读取settings.xml文件的优先级问题
  • 原文地址:https://blog.csdn.net/weixin_45666880/article/details/125871357
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号