例如 一台新的 服务器部署环境
1.环境服务器部署
上面版本没有问题,但是下面版本驱动本本比较低,不支持11.2cuda安装,要更新驱动
docker, nvidia-docker 安装之前先确认如下三个
paddle 2.3 需要安装的cuda 11.2 cudnn8.1
上面驱动版,不对太低需要更新460以上才行
版本确认顺序:CUDA版本 --> CuDNN版本 --> GPU驱动版本
安装顺序:GPU驱动版本 --> CUDA版本 --> CuDNN版本cuda 11.2 怎么安装,与驱动,cuda 版本号要一直,
https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html#cuda-developer-tools-new-features
想安装 cuda11.2,上面的驱动版本不支持,需要更新
> 如果nvdia-smi 不显示说明没有安装驱动
>
> 然后安装新的驱动
> 卸载 sudo apt-get --purge remove nvidia*
> sudo apt autoremove
> 查看可用的显卡型号
> sudo ubuntu-drivers devices
> sudo apt-get install nvidia-driver-515
bash 安装过程中每个人电脑情况可能不一样,比较干净的环境可能没有什么问题,
直接按照流程走就行,一台有配置过的环境服务器,没有docker 进行安装可能会出现问题例如:安装docker 命令后
curl https://get.docker.com | sh && sudo systemctl --now enable docker2、 报错
- sh -c DEBIAN_FRONTEND=noninteractive apt-get install -y -qq apt-transport-https ca-certificates curl >/dev/null
E: 软件包 containerd.io 需要重新安装,但是我无法找到相应的安装文件。
怎么解决
sudo dpkg --remove --force-remove-reinstreq Sougou Pinyin
3、继续报错
dpkg: 依赖问题阻止了卸载 containerd.io 的操作:
docker-ce 依赖于 containerd.io (>= 1.2.2-3).
怎么解决
有人提示一下,先安装containerd.io,接着是docker-ce-cli,最后docker-ce
1、首先 查看下是ubutn还是centos 系统,以下是ubuntu
cat /etc/issue
2、官网安装dockerce ubuntu的方式,可以成功了(然后继续安装 nvidia docker)
docker --version 显示成功
3、docker 安装好,继续安装 nvidia docker,继续报错
这里核查cuda不是11.2.是11.1所以要重新安装驱动
刚才安装的docker 大概不对,删除再安装
无法卸载docker-ce (并且无法安装任何新程序)
Ubuntu中卸载docker
ubuntu如何卸载dockerdocker-ce docker-engine docker.io containerd runc docker --version 还有版本号,没有删除成功,所以这里根据下面的步骤继续删除 dpkg -l | grep -i docker 查看还有依赖的包, sudo apt-get purge docker sudo apt-get purge --auto-remove docker sudo apt-get purge docker-ce sudo apt-get purge --auto-remove docker-ce 如果提示 删除dpkg: 处理软件包 docker-ce (--remove)时出错: 该软件包现在的 状态极为不妥; 建议您在卸载它之前再重新安装一次 删不掉,先安装再删除 sudo apt-get install docker-ce sudo apt-get purge docker docker.io docker-ce sudo apt autoremove 直到dpkg -l | grep -i docker 命令下面什么包都没有 然后就是 3、再输入以下命令删除docker卸载残留。 dpkg -l | grep docker dpkg -l |grep ^rc|awk '{print $2}' |sudo xargs dpkg -P # 删除无用的相关的配置文件 4、再输入以下命令卸载没有删除的docker相关插件。 sudo apt-get autoremove docker-ce-* 5、再输入以下命令删除docker的相关配置。 sudo rm -rf /etc/systemd/system/docker.service.d sudo rm -rf /var/lib/docker 6、最后输入以下命令检查是否卸载成功即可。 docker --version
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37