• Nvidia显卡Failed to initialize NVML Driver/library version mismatch错误解决方案


    最近GPT比较火,开始折腾了一下gpu,用来跑项目:
    https://github.com/OpenTalker/SadTalker
    今天运行程序突然发现用不了,经排查应该是由于NVIDIA内核驱动版本与系统驱动版本不一致导致的。

    下面简单总结了这个错误的解决方案。

    问题复现

    在这里插入图片描述
    查看系统驱动日志
    cat /var/log/dpkg.log | grep nvidia
    在这里插入图片描述## 问题原因分析
    NVIDIA内核驱动版本与系统驱动版本不匹配。
    ##查看显卡驱动内核版本
    cat /proc/driver/nvidia/version
    NVRM version: NVIDIA UNIX x86_64 Kernel Module 470.223.02 Thu May 11 11:46:56 UTC 2023
    GCC version: gcc version 11.4.0 (Ubuntu 11.4.0-1ubuntu1~22.04)
    查看已安装驱动程序

    dpkg --list | grep nvidia-*
    在这里插入图片描述
    经排查英伟达显卡驱动自动更新了,导致程序运行失败。

    下面是版本回退操作,
    解决方案
    卸载现有驱动,重新安装
    sudo /usr/bin/nvidia-uninstall
    sudo apt-get --purge remove nvidia-*
    sudo apt-get purge nvidia*
    sudo apt-get purge libnvidia*
    直到命令不输出任何内容
    sudo dpkg --list | grep nvidia-*
    
    重新安装
    sudo chmod a+x NVIDIA-Linux-x86_64-470.199.02.run
    sudo ./NVIDIA-Linux-x86_64-470.199.02.run -no-x-check -no-nouveau-check -no-opengl-files
         –no-opengl-files 只安装驱动文件,不安装OpenGL文件
         –no-x-check 安装驱动时不检查X服务
         –no-nouveau-check 安装驱动时不检查nouveau
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16

    报错处理:
    一,
    在这里插入图片描述

    1.下载官方驱动程序
    清除之前残留的nvidia驱动

    apt-get remove --purge nvidia*

    1. 禁止集成的nouveau驱动

    Ubuntu系统集成的显卡驱动程序是nouveau,它是第三方为NVIDIA开发的开源驱动,我们需要先将其屏蔽才能安装NVIDIA官方驱动。
    将驱动添加到黑名单blacklist.conf中,但是由于该文件的属性不允许修改。所以需要先修改文件属性。

    创建文件:
    cat /etc/modprobe.d/blacklist-nouveau.conf
    blacklist nouveau
    blacklist lbm-nouveau
    options nouveau modeset=0
    alias nouveau off
    alias lbm-nouveau off
    options nouveau modeset=0
    blacklist rivafb
    blacklist vga16fb
    blacklist nouveau
    blacklist nvidiafb
    blacklist rivatv

    卸载之前安装的残留文件
    sudo apt-get remove --purge xserver-xorg-video-nouveau
    sudo apt-get --purge remove nvidia-*

    3-0 安装依赖
    sudo apt update
    sudo apt install dkms build-essential linux-headers-generic

    3.开始安装
    安装驱动程序
    $sudo chmod a+x NVIDIA-Linux-x86_64-xxx.run
    $sudo sh NVIDIA-Linux-x86_64-xxx.run
    #–no-x-check 关闭X服务
    #–no-nouveau-check 禁用nouveau
    #–no-opengl-files 不安装OpenGL文件
    4-0 安装完成后
    sudo update-initramfs -u 内核更新
    sudo reboot

    卸载残留:

    要强制卸载这两个模块,你可以使用dpkg命令来操作。请按照以下步骤进行:

    1. 打开终端,以管理员权限登录到你的系统。

    2. 运行以下命令来卸载linux-modules-nvidia-450-server-6.2.0-35-generic模块:

      sudo dpkg --purge linux-modules-nvidia-450-server-6.2.0-35-generic
      ```
      
      
      • 1
      • 2
      • 3
    3. 运行以下命令来卸载linux-objects-nvidia-450-server-6.2.0-35-generic模块:

      sudo dpkg --purge linux-objects-nvidia-450-server-6.2.0-35-generic
      ```
      
      注意:在命令中替换版本号和架构(amd64)为你系统中实际安装的版本。
      
      
      • 1
      • 2
      • 3
      • 4
      • 5
    4. 当命令执行完成后,这两个模块应该已被强制卸载。

    最终效果:
    在这里插入图片描述其他命令:

    升级显卡驱动命令
    输入如下指令查看系统推荐的驱动版本:
    sudo ubuntu-drivers devices

    auturemove命令
    在Ubuntu中,你可以使用autoremove命令来自动删除不再需要的软件包和依赖项。这些软件包通常是由于你升级或删除其他软件包而变得不再需要的。

    要使用autoremove命令,请按照以下步骤进行:

    1. 打开终端。

    2. 以管理员权限登录到你的系统。

    3. 运行以下命令来使用autoremove

      sudo apt autoremove
      ```
      
      
      • 1
      • 2
      • 3
    4. 命令将扫描系统中不再需要的软件包和依赖项,并提示你确认是否删除它们。请仔细阅读删除列表上的软件包,确保你不再需要它们。

    5. 如果你确认要删除这些软件包,请输入"Y"或"yes",然后按回车键。

    6. autoremove命令将自动删除这些不再需要的软件包和依赖项。

    请注意,使用autoremove命令时要小心,确保你了解要删除的软件包以及其对系统的影响。建议在执行之前先进行备份,并定期进行系统维护和清理。

    tips:
    为避免麻烦关闭自动更新显卡驱动

    1.禁止自动升级

    修改配置文件/etc/apt/apt.conf.d/10periodic
    #0是关闭,1是开启,将所有值改为0
    vi etc/apt/apt.conf.d/10periodic
    APT::Periodic::Update-Package-Lists “0”;
    APT::Periodic::Download-Upgradeable-Packages “0”;
    APT::Periodic::AutocleanInterval “0”;

    在这里插入图片描述

    执行命令:
    sudo apt-mark hold linux-image-generic linux-headers-generic
    在这里插入图片描述
    2 使用 apt-mark hold

    apt-mark hold 命令可以帮助我们锁定某个软件包的版本,这样就可以防止 Ubuntu 自动更新该软件包。在这种情况下,我们可以使用 apt-mark hold 命令来锁定显卡驱动软件包的版本,从而防止 Ubuntu 自动更新显卡驱动。具体操作步骤如下:

    打开终端,使用以下命令来查看当前安装的显卡驱动软件包:
    dpkg -l | grep -i nvidia
    执行以下命令将该软件包的版本锁定:
    sudo apt-mark hold
    其中, 表示需要锁定的显卡驱动软件包的名称,例如:nvidia-driver-450。

    如果需要解除锁定,我们可以使用以下命令:
    sudo apt-mark unhold
    需要注意的是,该方法只会禁止 Ubuntu 自动更新显卡驱动,如果我们需要安装更新版本的显卡驱动,则需要手动执行 apt-get update 和 apt-get upgrade 命令

  • 相关阅读:
    支持JDK19虚拟线程的web框架,之二:完整开发一个支持虚拟线程的quarkus应用
    Etcd 概要 机制 和使用场景
    leetcode 60. 排列序列(困难、计数法)
    windows上安装好了pip,并正确配置了路径后,特别地使用
    JMeter接口测试之文件上传(参数提取与传递)
    笔试强训(三十五)
    【面试:并发篇27:多线程:犹豫模式】
    第26章_瑞萨MCU零基础入门系列教程之独立看门狗定时器-IWDT
    ppt复现CVPR顶会流程图
    【DOM系列】你真的理解事件委托(事件代理)吗?
  • 原文地址:https://blog.csdn.net/weixin_54104864/article/details/134272887