“通过 Linux 系统查看 Nvidia GPU 的系统管理界面(System Management Interface, SMI),其他操作系统类似。”
> nvidia-smi
得到如下图所示的界面:
GPU: 0
GPU index / GPU 索引
Name: NVDIA A-100
GPU Name / GPU 型号
Temp: 37C
Core GPU temperature in Celsius degree / GPU 温度(摄氏度),一般不用管。90+ 摄氏度的时候需要注意
Perf:P0
GPU performance / 表示GPU当前的性能状态。取值范围为P0 ~ P12,分别表示最大性能和最小性能
Persistence-M: Off
Persistence mode / 持久化模式标志(On)的值意味着即使没有活动的客户端(如NVIDIA -smi)正在运行,NVIDIA驱动程序也将保持加载(持久化)。这减少了CUDA程序等依赖应用程序的驱动程序加载延迟。这个图片例子是 off
Pwr: Usage/Cap: 109W/400W
GPU power usage and its capacity / 它是指 GPU 在总功率容量中的当前功率使用情况。它以瓦特为单位
Memory-Usage: 22872Mib/40536MiB
Memory usage and its capacity / GPU 的当前内存使用情况和总内存
GPU-Util: 95%
GPU utilization / 它表示GPU利用率的百分比,即在样本周期内内核使用GPU的时间百分比。在百分比较低的情况下,当代码花费时间从磁盘读取数据时,GPU没有得到充分利用
PID: 16515
The ID of process / 进程的ID
Type:C
The type of processes: C:Compute; G: Graphics; C+G: Compute and Graphics context / 进程类型
GPU Memory Usage:22869MiB
Memory of specific GPU utilized by each process / 每个进程使用的特定GPU的内存
Ref:
https://medium.com/analytics-vidhya/explained-output-of-nvidia-smi-utility-fc4fbee3b124