码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • PyTorch Lightning - LightningModule 训练逻辑 (training_step) 异常处理 try-except


    欢迎关注我的CSDN:https://spike.blog.csdn.net/
    本文地址:https://spike.blog.csdn.net/article/details/133673820

    LightningModule

    在使用 LightningModule 框架训练模型时,因数据导致的训练错误,严重影响训练稳定性,因此需要使用 try-except 及时捕获错误。即 当错误发生时,在 training_step 异常返回 None,同时,on_before_zero_grad 也需要进行异常处理,处理 training_step 的异常返回 None。

    同样的,validation_step 也可以这样处理。

    源码如下:

    class MyObject(pl.LightningModule):
    	def __init__(self, config, args):
    		# ...
    		
    	def training_step_wrapper(self, batch, batch_idx, log_interval=10):
    		# train key process
    		
    	def training_step(self, batch, batch_idx, log_interval=10):
            """
            typically, each step costs 50 seconds
            参考: https://github.com/Lightning-AI/lightning/pull/3566
            """
            try:
                res = self.training_step_wrapper(batch, batch_idx, log_interval)
                return res
            except Exception as e:
                logger.info(f"[CL] training_step, exception: {e}")
                return None
                
    	def on_before_zero_grad(self, *args, **kwargs):
            try:
                self.ema.update(self.model)
            except Exception as e:
                # 支持 training_step return None
                logger.info(f"[CL] on_before_zero_grad, exception: {e}")
                return
                
    	def validation_step_wrapper(self, batch, batch_idx):
            # val key process
    
        def validation_step(self, batch, batch_idx):
            try:
                self.validation_step_wrapper(batch, batch_idx)
            except Exception as e:
                logger.info(f"[CL] validation_step, exception: {e}")
                return
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36

    常见错误如下

    数组越界:

    index 0 is out of bounds for dimension 0 with size 0

    字典错误字段:

    num_res = int(np_example["seq_length"])
    KeyError: 'seq_length'

    计算输入数值为空:

    V, _, W = torch.linalg.svd(C)

    free()异常:

    free(): invalid next size (fast)

    munmap_chunk() 空指针:

    munmap_chunk(): invalid pointer

  • 相关阅读:
    Java整合七牛云对象存储Kodo
    为什么要学爬虫?
    数组_滑动窗口 | leecode刷题笔记
    python3如何安装各类库的小总结
    windows c++开发
    【自动驾驶】多传感器感知技术解析
    校园网页设计成品 学校班级网页制作模板 dreamweaver网页作业 简单网页课程成品 大学生静态HTML网页源码
    C语言系统化精讲(二):C语言初探
    VMware Workstation Pro 16、CentOS7镜像 (Windows10)下载安装
    x86-32-Linux下栈溢出攻击原理
  • 原文地址:https://blog.csdn.net/u012515223/article/details/133673820
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号