• RuntimeError: DataLoader worker (pid(s) 46220) exited unexpectedly


    在这里插入图片描述

    raise RuntimeError(‘DataLoader worker (pid(s) {}) exited unexpectedly’.format(pids_str)) from e
       RuntimeError: DataLoader worker (pid(s) 46220) exited unexpectedly

    其实吧,这个问题说难不难,说简单也简单。
    出现这个Error很明显,就是CPU加载数据和GPU处理数据速度不匹配了,而且不是以往那种CPU利用率拉满,而GPU虽然占用率拉满,但实际利用率不高的情况。打个比方,以前是cpu加载数据要个20-30s,但gpu零点几秒就处理完成了,从而一直等待。这种情况只会让模型运行时间变长而已。

    torch.utils.data.DataLoader(datasets[x], batch_size=batch_size, shuffle=True, num_workers=8, pin_memory=True)
    
    • 1

    现在则是两极反转,Dataloader的batchsize设置的比较大(64,128),而且还使用多个num_workers去多进程load数据,比如16-32个,甚至还把pin_memory设为True了。导致cpu加载数据快到飞起,反而GPU跟不上了,就会出现异常,然后杀死进程,出现如上结果。

    解决方案

    就是根据以上提的三点来呗

    1. batchsize减小
    2. num_workers设的小一点,比如2,甚至不设置(默认为1)
    3. pin_memory = False

    以上3点使用一至两种一般就能解决,不行就都用。

    并且把数据加载,预/后处理这种IO任务让GPU去做, load checkpoint的时候 map_location也别设成cpu了,这么拉后腿,肯定可以成功。

  • 相关阅读:
    简析Cookie、Session、Token
    2022/08/26 day11:高级数据类型
    服务器端优化、NIO、非阻塞的HTTP服务器
    Monaco Editor教程(十七):代码信息指示器CodeLens配置详解
    MobileViT论文记录
    字符集 - java案例分析
    JAVA中的“抽象接口”
    常用辅助类
    Hexagon_V65_Programmers_Reference_Manual(11)
    Eclipse中使用Git提交代码到Gitee
  • 原文地址:https://blog.csdn.net/weixin_42455006/article/details/127656107