1. 准备实验环境
1.1 查看显卡型号
1.2 下载显卡驱动
访问https://www.nvidia.cn/Download/index.aspx 搜索显卡所需要的驱动型号并下载
查看驱动型号,NVIDIA-Linux-x86_64-515.65.01.run
1.3 禁用集成显卡驱动nouveau
mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
dracut /boot/initramfs-$(uname -r).img $(uname -r)
systemctl set-default multi-user.target
reboot
1.4 安装显卡驱动
chmod +x NVIDIA-Linux-x86_64-515.65.01.run
./NVIDIA-Linux-x86_64-515.65.01.run
安装过程中会出现以下几个问题,选择yes 或no
1.5 验证安装是否成功
nvidia-smi #查看显卡驱动版本
我们可以看到显卡驱动安装成功。
2. 安装CUDA
2.1 选择CUDA版本
需要根据linux的显卡驱动版本选择对应的CUDA版本,我们当前的显卡驱动是515.65,对用的CUDA版本是11.7.
[root@localhost hadoop]# uname -r
3.10.0-1160.el7.x86_64
[root@localhost hadoop]# cat /etc/centos-release
CentOS Linux release 7.9.2009 (Core)
#下载CUDA
[root@localhost hadoop]# wget https://developer.download.nvidia.com/compute/cuda/11.7.1/local_installers/cuda_11.7.1_515.65.01_linux.run
#安装CUDA
[root@localhost hadoop]# sudo sh cuda_11.7.1_515.65.01_linux.run
我们根据架构,选择目标的CUDA版本 https://developer.nvidia.com/cuda-downloads?target_os=Linux
安装显然过程如下(选择accept-》Install):
安装完成后,出现以下界面
添加环境变量
vim ~/bashrc
source ~/.bashrc
2.2 验证CUDA ToolKit是否安装成功
nvcc -V
3. 安装CUDNN
选择CUDA相匹配的版本,我们是CUDA版本是11.7,NVIDIA官网上没有匹配,选择
Download cuDNN v8.4.0 (April 1st, 2022), for CUDA 11.x
下载https://developer.nvidia.com/rdp/cudnn-archive,名称为cudnn-linux-x86_64-8.4.1.50_cuda11.6-archive.tar.xz
$ tar -xvf cudnn-linux-x86_64-8.4.0.27_cuda11.6-archive.tar.xz
$ sudo cp cudnn-linux-x86_64-8.4.0.27_cuda11.6-archive/include/cudnn*.h /usr/local/cuda/include
$ sudo cp -P cudnn-linux-x86_64-8.4.0.27_cuda11.6-archive/lib/libcudnn* /usr/local/cuda/lib64
$ sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*
如出现以下输出,则安装成功。
3.2 检查安装是否成功
4. 安装Python
准备编译环境
yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gcc make
4.1 安装pip
yum install python3-pip #安装pip
python3 -m pip install --upgrade pip #pip升级
4.2 安装Python
wget https://www.python.org/ftp/python/3.6.1/Python-3.6.1.tgz #下载python jar包
tar -zxvf Python-3.6.1.tgz #解压缩
mkdir /usr/local/python3
cd Python-3.6.1
./configure --prefix=/usr/local/python3
make && make install #编译python
配置环境变量
4.2 检查安装是否成功
6. 安装PyTorch
登录https://pytorch.org/,寻找安装命令。
$ pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu116
验证pytorch
参考:
【1】https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html