ZStack Logo

ZStack AIOS

GPU设备监控

AIOS 用户侧功能说明,覆盖 GPU、模型仓库、推理服务和场景实践。

GPU设备界面,点击GPU设备名称,进入GPU设备详情页,可查看该GPU设备的详细监控数据和监控图表。

  • 物理GPU设备支持查看:GPU利用率、显存利用率、功耗、温度、风扇转速;部分NVIDIA GPU还支持查看PCIe Rx吞吐量、PCIe Tx吞吐量。
  • vGPU设备支持查看:vGPU利用率、显存利用率。
  • dGPU设备支持查看:dGPU利用率、显存利用率。

平台默认展示15分钟内GPU负载的变化曲线,用户也可以自定义时间跨度,查看指定时间范围内的GPU负载变化,包括:15分钟、1小时、6小时、1天、1周、1月、1年、自定义。

图1图2所示:


图1 GPU设备实时负载




图2 GPU设备负载变化

GPU驱动

查看GPU负载监控需正确安装GPU驱动和agent工具:
  • 物理机 | 物理GPU设备:
    • 如GPU设备未透传给云主机使用,为物理机安装GPU驱动后可查看GPU负载监控。
    • 如GPU设备已透传给云主机使用,为云主机安装GPU驱动和性能优化工具后可查看GPU负载监控。
  • 物理机 | vGPU设备:为物理机安装GPU驱动后可查看GPU负载监控。
  • 弹性裸金属 | 物理GPU设备:为弹性裸金属实例安装GPU驱动和agent后可查看GPU负载监控。
  • 容器 | 物理GPU设备:为容器集群节点安装GPU驱动后可查看GPU负载监控。
推荐使用以下版本的GPU驱动:
GPU 物理机推荐驱动版本 云主机/弹性裸金属实例推荐驱动版本
NVIDIA
  • GPU驱动:NVIDIA-Linux-x86_64-510.47.03-grid.run
  • vGPU驱动:NVIDIA-Linux-x86_64-510.47.03-vgpu-kvm.run
使用NVIDIA官方推荐最新版本:详见NVIDIA官方文档
AMD rocm-smi 6.1.2及以上版本 rocm-smi 6.1.2及以上版本
说明: 如云主机使用RHEL7系列操作系统,需确保云主机内核为4.18.0或以上版本。
Hygon

rock-5.2.0-5.16.29-V01.13.run

/
华为

Ascend-hdk-310p-npu-driver_24.1.rc1_linux-aarch64.run

Ascend-hdk-310p-npu-driver_24.1.rc1_linux-aarch64.run

天数智芯
  • x86架构:corex-installer-linux64-4.0.1_x86_64_10.2.run
  • ARM架构:corex-installer-linux64-4.0.1_arm64_10.2.run
  • x86架构:corex-installer-linux64-4.0.1_x86_64_10.2.run
  • ARM架构:corex-installer-linux64-4.0.1_arm64_10.2.run
说明: 查看容器集群GPU设备监控,为容器集群节点安装GPU驱动即可,无推荐版本限制。

dGPU报警

ZStack AIOS支持对dGPU设备设置报警,帮助用户及时发现dGPU资源使用异常和状态异常。

  • 资源报警:支持对dGPU利用率显存使用率两项指标设置阈值报警。在ZStack AIOS主菜单,点击平台运维 > 报警器 > 资源报警,点击创建报警器资源类型选择dGPU设备,按需设置监控指标和阈值。
  • 事件报警:系统默认对dGPU设备的状态异常(如故障、已断开)生成事件报警。在平台运维 > 报警器 > 事件报警中,可查看dGPU相关事件并配置通知方式。

注意事项

  • Hygon GPU透传给云主机使用后,暂不支持通过驱动查看负载监控。
  • 如已为物理机安装GPU驱动,但仍无法查看对应的GPU设备监控,可尝试重连物理机,使系统识别该GPU驱动。
  • 如已为物理机或云主机安装GPU驱动 (云主机需额外安装性能优化工具),但仍无法查看对应的GPU设备监控,且检查日志文件 (物理机查看kvmagent.log,云主机查看zwatch-vm-agent.log) ,发现未找到smi报错 (例如,npu-smi not found) ,请将smi工具存放到以下任意目录:/usr/bin/var/lib/zstack/virtualenv/kvm/bin/sbin/usr/sbin/bin建议存放到/usr/bin
  • 如使用双芯片AMD卡 (AMD Firepro S7150 X2) ,并将其对应的两个物理GPU设备分别透传给不同云主机使用,请为云主机安装相同版本的驱动,以保证正常获取GPU监控数据。