ZStack Logo

ZStack AIOS

管理dGPU

按 AI 模型平台功能组织的 UI 操作说明和配置入口。

云主机加载dGPU后,系统根据加载情况生成对应的dGPU设备。管理员可在GPU设备界面的dGPU标签页,集中查看和管理全平台的dGPU设备。

ZStack AIOS主菜单,点击资源中心 > 硬件设施 > GPU设备 > dGPU,进入dGPU列表页。

查看方式

dGPU列表页支持两种查看方式:
  • 全部dGPU:以平铺列表形式展示平台上所有dGPU设备。
  • 按物理GPU查看:按所属物理GPU分组展示dGPU设备。支持通过名称搜索目标物理GPU。
列表默认展示以下信息:
  • 名称:dGPU设备的唯一名称。
  • 工作状态:dGPU设备当前的工作状态,详见工作状态
  • 所属云主机:当前加载该dGPU的云主机。
  • dGPU利用率:dGPU的计算利用率。
  • 显存利用率:dGPU的显存使用占比。
  • 所属物理GPU:切分出该dGPU的物理GPU设备。
  • 创建时间:dGPU设备创建时间。

工作状态

dGPU设备支持以下工作状态:
状态 说明
正常 dGPU设备工作正常,可正常提供算力。
故障 dGPU设备出现故障,无法获取监控数据。
已断开 dGPU设备与物理机通信断开,无法获取监控数据。
未知 系统无法判定dGPU设备当前状态,通常由性能优化工具未安装或未就绪导致。
说明: 如列表顶部出现当前有 N 个dGPU设备未完成初始化,请检查云主机是否已安装性能优化工具的提示,请进入对应云主机详情页,安装性能优化工具后再试。
图1所示:


图1 dGPU列表

查看dGPU详情

点击目标dGPU名称,进入dGPU详情页,可查看该dGPU设备的基本信息、硬件信息、监控数据等。
  • 基本信息:展示dGPU名称、工作状态、所属云主机、dGPU显存大小、创建时间等。
  • 硬件信息:展示所属物理GPU、厂商、物理显存大小等。
  • 监控:展示dGPU利用率、显存利用率等监控数据。支持自定义时间跨度查看历史变化曲线。详见GPU设备监控
图2所示:


图2 dGPU详情页

卸载dGPU

如需从云主机卸载已加载的dGPU,可通过以下方式操作:
  • 方式一:在dGPU详情页,点击操作 > 卸载dGPU
  • 方式二:进入云主机详情页,在配置信息dGPU设备区域,选择目标dGPU进行卸载。
说明: 为保证硬件稳定性,建议在云主机停止状态下卸载dGPU设备。卸载后,dGPU自动释放,显存资源被回收,可重新调度给其他云主机使用。