背景:本来以为买了一台GPU服务器,直接运行飞桨的模型就好了,实际上是我想多了,没想到GPU服务器只是带有显存,具体还是要靠驱动来运行模型的。所以就有了以下这些事情。
根据你购买的GPU服务器类型选择合适的显卡驱动,链接:https://www.nvidia.com/Download/Find.aspx
下载好后上传至GPU服务器上或者直接右键复制下载链接使用wget命令直接下载到GPU服务器上(注意不要选择最新版本,因为在安装驱动包的同时可能还需要安装其它依赖库,所以选一个相对不是很高的版本即可)

修改xxx.run文件权限,chmod 775 NVIDIA-Linux-x86_64-xxx.run
运行安装sh NVIDIA-Linux-x86_64-xxx.run,这里会在服务器上出现一个界面,一般都是选择默认的即可
使用命令查看是否安装成功nvidia-smi

tar -xvJf cudnn-linux-x86_64-8.4.0.27_cuda11.6-archive.tar.xzcp cudnn-linux-x86_64-8.4.0.27_cuda11.6-archive/include/cudnn*.h /usr/local/cuda/include
cp -P cudnn-linux-x86_64-8.4.0.27_cuda11.6-archive/lib/libcudnn* /usr/local/cuda/lib64
chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*
python -m pip install paddlepaddle-gpu==0.0.0.post111 -f https://www.paddlepaddle.org.cn/whl/linux/gpu/develop.html
切记网上一般说install的是paddlepaddle-gpu,但是实际运行模型时总是会检测不到当前服务器的GPU参数,那可能是我们安装的依赖有问题了
nvidia-smi查看时,我们可以看到No running processes found会显示出程序运行所对应的利用显存的大小。