• Nvidia驱动卸载干净了,新驱动却还是安装不上?


    (卸载干净后,驱动还是安装不上)

    由于更新到 cuda11.1(驱动版本455.23)之后服务器分布式训练出现多个0MB进程,类似下图

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9bvIkS0h-1653487404877)(https://secure2.wostatic.cn/static/wCHMJJgjbgk3yiYKBdsSmU/image.png)]

    准备卸载后重装,按照上述经历,卸载了驱动和cuda,为了偷懒想重新安装一个最新版的驱动,兼容各种cuda版本,但是在尝试各种卸载干净之后,也不输出nvidia相关文件了,也禁止了nouvea驱动,仍然安装失败,只能安装cuda11.1对应的驱动,百思不得其解,经过一下午的折腾,在单独安装510版本的驱动时,仔细看了一下提示: 如下内容,大意是说驱动安装失败的原因是还有进程在使用nvidia ,我突然想到之前为了4卡nvidia-smi命令卡顿的问题,开启了NVIDIA Persistence Daemon进程,正好在提示的问题中,赶紧查找了一下进程,果然nvidia还在使用,此时查看cat /proc/driver/nvidia/version 显示的驱动还是455.23

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RM5B19mM-1653487404878)(https://secure2.wostatic.cn/static/5JfvSxQhqWSGXnANADHFQP/image.png)]

    **杀死nvidia-persiste 进程后,就没有其他进程再使用了,此时再次安装驱动一切顺利。**再次查看驱动版本

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Z8ikxLMZ-1653487404878)(https://secure2.wostatic.cn/static/4uff3QHJaz7P3m11R74e4h/image.png)]

    已经成功安装为510版本。

    此时运行程序,也不再显示0-MB进程,因此可能是之前驱动安装有问题。

    驱动安装时报错内容

    An NVIDIA kernel module ‘nvidia’ appears to already be loaded in your kernel.

    This may be because it is in use (for example, by an X server, a CUDA program,

    or the NVIDIA Persistence Daemon), but this may also happen if your kernel was

    configured without support for module unloading. ** **Please be sure to exit any

    programs that may be using the GPU(s) before attempting to upgrade your driver.

    If no GPU-based programs are running, you know that your kernel supports module

    unloading, and you still receive this message, then an error may have occurred

    that has corrupted an NVIDIA kernel module’s usage count, for which the

    simplest remedy is to reboot your computer.

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LMItEX3z-1653487404878)(https://secure2.wostatic.cn/static/wVLQpFFrAUDaNAhjoCvT7W/image.png)]

    由于是多卡,因为nvidia-smi卡顿的原因,我开了NVIDIA Persistence Daemon,所以尝试关闭

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-K00HTdTZ-1653487404879)(https://secure2.wostatic.cn/static/coDTooKva1xRpjzTYzxaCL/image.png)]

    提示查看var/log/nvidia-installer.log文件

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UXn6D6f1-1653487404879)(https://secure2.wostatic.cn/static/i6g1hz9CAGvnLcUsw5kxfD/image.png)]
    所以,总结一下,nvidia驱动卸载后,可能仍然有一些进程在使用,需要关闭后再安装。

  • 相关阅读:
    opengles 绘制图元 ——glDrawArrays() 相关API介绍 (十)
    vue 部署到本机IIS 部署 SPA 应用
    3.无约束优化迭代法
    算法笔记:平衡二叉树
    vue3中使用setup语法糖使用
    前端小案例-图片存放在远端服务器
    网络安全(黑客)自学
    【ElasticSearch8】SpringBoot集成ElasticSearch8.x 基本应用 CRUD操作 环境安装
    操作系统导论--受限制的直接执行
    Java学习笔记4.5.1 日期时间 - Date类
  • 原文地址:https://blog.csdn.net/xiaoxiaomo_/article/details/124974893