• 项目场景 with ERRTYPE = cudaError CUDA failure 999 unknown error


    项目场景 [with ERRTYPE = cudaError; bool THRW = true] CUDA failure 999: unknown error ; GPU=24 :

    需要升级之前老的程序,之前的cuda 是10.2


    问题描述:

    环境

    cuda 11.2 (之前是10.2)

    onnxruntime-gpu 1.10

    python 3.9.7

    在这里插入图片描述

    启动程序的时候

    Traceback (most recent call last):
      File "/home/aiuser/cover/liheng-foggun/app.py", line 15, in 
        model = DetectMultiBackend(weights=config.paddle.model_file)
      File "/home/aiuser/miniconda3/envs/cover/lib/python3.9/site-packages/torch/autograd/grad_mode.py", line 28, in decorate_context
        return func(*args, **kwargs)
      File "/home/aiuser/cover/liheng-foggun/models/yolo.py", line 37, in __init__
        self.session = onnxruntime.InferenceSession(weights, providers=['CUDAExecutionProvider'])
      File "/home/aiuser/miniconda3/envs/cover/lib/python3.9/site-packages/onnxruntime/capi/onnxruntime_inference_collection.py", line 335, in __init__
        self._create_inference_session(providers, provider_options, disabled_optimizers)
      File "/home/aiuser/miniconda3/envs/cover/lib/python3.9/site-packages/onnxruntime/capi/onnxruntime_inference_collection.py", line 379, in _create_inference_session
        sess.initialize_session(providers, provider_options, disabled_optimizers)
    RuntimeError: /onnxruntime_src/onnxruntime/core/providers/cuda/cuda_call.cc:122 bool onnxruntime::CudaCall(ERRTYPE, const char*, const char*, ERRTYPE, const char*) [with ERRTYPE =
     cudaError; bool THRW = true] /onnxruntime_src/onnxruntime/core/providers/cuda/cuda_call.cc:116 bool onnxruntime::CudaCall(ERRTYPE, const char*, const char*
    , ERRTYPE, const char*) [with ERRTYPE = cudaError; bool THRW = true] CUDA failure 999: unknown error ; GPU=24 ; hostname=aiserver-sl-01 ; expr=cudaSetDevice(info_.device_id);
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14

    原因分析:

    1.刚开始以为是onnxruntime-gpu 版本问题 升级到了 1.12 还是报错

    2.网上又说是不兼容的问题

    3.试试重装下驱动,卸载了11.2 的时候 通过nvidia-smi 发现之前10.2的驱动还存在

    4.是因为之前的驱动没有卸载干净


    解决方案:

    1.卸载10.2

    sudo /usr/local/cuda-10.2/bin/cuda-uninstaller
    
    • 1

    2.安装新驱动

    #离线安装 515.57
    sudo ./NVIDIA-Linux-x86_64-515.57.run -no-x-check -no-nouveau-check
    
    • 1
    • 2

    VIDIA-Linux-x86_64-515.57.run -no-x-check -no-nouveau-check

    • 相关阅读:
      W6_二叉树
      JAVA面试题JVM篇(三)
      Vuex 4.x 模拟实现
      APS自动排产 — 排产结果拉动物料需求计划
      JVM--基础--24.2--日志参数
      IDEA中如何快速定位到第一行或者最后一行
      使用 GitHub Action 自动更新 Sealos 集群的应用镜像
      CountDownLatch vs CyclicBarrier
      Leetcode1090. 受标签影响的最大值
      CIGS太阳能电池中的吸收
    • 原文地址:https://blog.csdn.net/mtl1994/article/details/126107337