在GPU设备界面,点击GPU设备名称,进入GPU设备详情页,可查看该GPU设备的详细监控数据和监控图表。
- 物理GPU设备支持查看:GPU利用率、显存利用率、功耗、温度、风扇转速;部分NVIDIA GPU还支持查看PCIe Rx吞吐量、PCIe Tx吞吐量。
- vGPU设备支持查看:vGPU利用率、显存利用率。
- dGPU设备支持查看:dGPU利用率、显存利用率。
平台默认展示15分钟内GPU负载的变化曲线,用户也可以自定义时间跨度,查看指定时间范围内的GPU负载变化,包括:15分钟、1小时、6小时、1天、1周、1月、1年、自定义。
GPU驱动
查看GPU负载监控需正确安装GPU驱动和agent工具:
- 物理机 | 物理GPU设备:
- 如GPU设备未透传给云主机使用,为物理机安装GPU驱动后可查看GPU负载监控。
- 如GPU设备已透传给云主机使用,为云主机安装GPU驱动和性能优化工具后可查看GPU负载监控。
- 物理机 | vGPU设备:为物理机安装GPU驱动后可查看GPU负载监控。
- 弹性裸金属 | 物理GPU设备:为弹性裸金属实例安装GPU驱动和agent后可查看GPU负载监控。
- 容器 | 物理GPU设备:为容器集群节点安装GPU驱动后可查看GPU负载监控。
推荐使用以下版本的GPU驱动:
| GPU | 物理机推荐驱动版本 | 云主机/弹性裸金属实例推荐驱动版本 |
|---|---|---|
| NVIDIA |
|
使用NVIDIA官方推荐最新版本:详见NVIDIA官方文档 |
| AMD | rocm-smi 6.1.2及以上版本 | rocm-smi
6.1.2及以上版本 说明: 如云主机使用RHEL7系列操作系统,需确保云主机内核为4.18.0或以上版本。 |
| Hygon |
rock-5.2.0-5.16.29-V01.13.run |
/ |
| 华为 |
Ascend-hdk-310p-npu-driver_24.1.rc1_linux-aarch64.run |
Ascend-hdk-310p-npu-driver_24.1.rc1_linux-aarch64.run |
| 天数智芯 |
|
|
说明: 查看容器集群GPU设备监控,为容器集群节点安装GPU驱动即可,无推荐版本限制。
dGPU报警
ZStack AIOS支持对dGPU设备设置报警,帮助用户及时发现dGPU资源使用异常和状态异常。
- 资源报警:支持对dGPU利用率、显存使用率两项指标设置阈值报警。在ZStack AIOS主菜单,点击,点击创建报警器,资源类型选择dGPU设备,按需设置监控指标和阈值。
- 事件报警:系统默认对dGPU设备的状态异常(如故障、已断开)生成事件报警。在中,可查看dGPU相关事件并配置通知方式。
注意事项
- Hygon GPU透传给云主机使用后,暂不支持通过驱动查看负载监控。
- 如已为物理机安装GPU驱动,但仍无法查看对应的GPU设备监控,可尝试重连物理机,使系统识别该GPU驱动。
- 如已为物理机或云主机安装GPU驱动 (云主机需额外安装性能优化工具),但仍无法查看对应的GPU设备监控,且检查日志文件 (物理机查看kvmagent.log,云主机查看zwatch-vm-agent.log) ,发现未找到smi报错 (例如,npu-smi not found) ,请将smi工具存放到以下任意目录:/usr/bin、/var/lib/zstack/virtualenv/kvm/bin、/sbin、/usr/sbin、/bin,建议存放到/usr/bin
- 如使用双芯片AMD卡 (AMD Firepro S7150 X2) ,并将其对应的两个物理GPU设备分别透传给不同云主机使用,请为云主机安装相同版本的驱动,以保证正常获取GPU监控数据。


