nvidia-smi
是 NVIDIA System Management Interface 的缩写,是 NVIDIA 提供的一个命令行工具,用于查看和管理 NVIDIA GPU 设备的信息。执行这个命令通常可以获取关于系统上安装的 NVIDIA GPU 的实时状态和性能信息。
一般来说,nvidia-smi
提供了以下信息:
这对于监控 GPU 的使用情况、调试 GPU 程序或确保 GPU 驱动程序正常安装非常有用。
这是 nvidia-smi
命令的输出结果,其中包含了关于两块 NVIDIA GPU 设备的详细信息:
设备列表:
GPU 0
: NVIDIA GeForce ...(具体型号已被截断)GPU 1
: NVIDIA GeForce ...(具体型号已被截断)实时状态:
GPU 0
的状态:
Fan
: 风扇速度,30%Temp
: 温度,25摄氏度Perf
: 性能状态,P8Pwr:Usage/Cap
: 电源使用情况,13W / 350WMemory-Usage
: 显存使用情况,16016MiB / 24576MiBGPU-Util
: GPU 利用率,0%Compute M.
: 计算模式,DefaultGPU 1
的状态:
Fan
: 风扇速度,61%Temp
: 温度,63摄氏度Perf
: 性能状态,P2Pwr:Usage/Cap
: 电源使用情况,296W / 350WMemory-Usage
: 显存使用情况,7894MiB / 24576MiBGPU-Util
: GPU 利用率,98%Compute M.
: 计算模式,Default进程信息:
GPU 0
上的进程:
3712792
C
(Compute)...s/labelsystem/bin/python3
16014MiB
的 GPU 内存GPU 1
上的进程:
2811288
C
(Compute)...vs/torchspeech/bin/python
7892MiB
的 GPU 内存这个输出告诉了关于两块 GPU 设备的各种信息,包括它们的使用情况、温度、电源使用等。
Driver Version(驱动程序版本): NVIDIA 显卡的驱动程序版本。
CUDA Version(CUDA 版本): 计算统一设备架构(CUDA)的版本。
GPU Name(GPU 名称): 显示在系统中的 GPU 设备的名称。
Persistence-M(持久性模式): 显示 GPU 是否处于持久性模式。在这里,"Off" 表示不在持久性模式。
Bus-Id(总线 ID): 显卡的总线 ID,可以用于唯一标识系统中的每个 GPU。
Disp.A(显示适配器): 显示适配器信息,包括显卡是否处于激活状态(On)或关闭状态(Off)。
Volatile Uncorr. ECC(不稳定的 ECC 错误): 显存的错误纠正码(ECC)状态。
Fan(风扇): 显卡风扇的当前运行情况,包括百分比和温度。
Temp(温度): 显卡的当前温度。
Perf(性能): 显卡的性能状态。
Pwr:Usage/Cap(功耗): 显卡的功耗使用情况,包括当前功耗和最大功耗。
Memory-Usage(显存使用情况): 显卡当前正在使用的显存量。
GPU-Util(GPU 利用率): 显卡的利用率,表示 GPU 目前的工作负载。
Compute M.(计算模式): 显卡当前的计算模式。
Memory-Total(显存总量): 显卡的总显存容量。
Processes(进程): 显示当前正在使用显存的进程,包括进程的 ID、类型和显存使用情况。