ZStack Logo

ZStack AIOS

管理GPU设备

完整平台用户手册,包含基础云平台能力与 AIOS 相关章节。

ZStack Cloud主菜单,点击资源中心 > 硬件设施 > GPU设备,进入GPU设置界面。

管理物理GPU

支持在GPU设备界面对物理GPU进行以下操作:
操作 描述
编辑名称 修改GPU设备名称。
启用物理GPU 启用物理GPU设备,启用后该物理GPU可直接透传给云主机使用。
说明: 弹性裸金属集群、容器集群的GPU不支持该操作。
停用物理GPU 停用物理GPU设备,停用后该物理GPU设备不可继续透传给云主机使用。
说明:
  • 正在被云主机使用的物理GPU设备可以正常使用,不受影响,直至被卸载。
  • 弹性裸金属集群、容器集群的GPU不支持该操作。
设置共享模式 设置物理GPU设备的共享模式,支持全局共享、指定共享、不共享。
启用dGPU模式 为物理GPU设备启用dGPU模式,允许系统通过CUDA API拦截转发技术,按需切分物理GPU显存,动态分配给不同云主机使用。
说明:
  • 启用前,需确保GPU型号支持dGPU功能,适配详情可参考GPU设备
  • 启用前,需确保物理机使用x86_64架构,并安装CUDA (12.1或以上版本) 和NVIDIA GPU驱动 (570.x或以上版本) 。
  • 启用前,需确保物理机BIOS已开启Intel VT-d / AMD IOMMU功能,且物理机内核已开启IOMMU支持。
  • 为云主机加载dGPU设备,需确保云主机使用Linux操作系统并已安装性能优化工具。
  • 物理GPU启用dGPU模式后,将无法使用透传和vGPU功能;正在使用透传和vGPU功能的物理GPU无法启用dGPU模式。
  • 如一台物理机上安装多个物理GPU设备,所有GPU设备将同步启用dGPU模式。
  • 仅KVM集群的GPU支持该操作。
停用dGPU模式 为物理GPU设备停用dGPU模式,不再对其进行显存切分和动态分配。
说明:
  • 如一台物理机上安装多个物理GPU设备,所有GPU设备将同步停用dGPU模式。
  • 关闭前,需确保所有相关dGPU已从云主机卸载。
虚拟化切割 将未透传的物理GPU设备,虚拟化切割为vGPU设备。不同厂商的物理GPU虚拟化切割方式略有不同。
  • NVIDIA:按照所选切割规格,单独虚拟化切割NVIDIA物理GPU。
  • AMD:按照所选切割数量,同时虚拟化切割当前AMD卡对应的所有物理GPU。
说明: 虚拟化切割物理GPU设备需要满足以下条件:
  • 确保该物理GPU型号支持虚拟化切割。
  • 确保该物理GPU未透传给云主机使用。
  • 确保该物理机BIOS已开启Intel VT-d / AMD IOMMU功能,且物理机内核已开启IOMMU支持。
  • 确保平台中添加的物理机IOMMU就绪状态为可用
  • 仅KVM集群的GPU支持该操作。
虚拟化还原 将vGPU设备虚拟化还原为物理GPU设备。不同厂商的物理GPU虚拟化还原方式略有不同。
  • NVIDIA:虚拟化还原NVIDIA vGPU需确保此物理GPU相关的vGPU已经全部从云主机卸载。
  • AMD:虚拟化还原AMD vGPU需确保当前AMD卡对应的所有vGPU全部已经从云主机卸载。
说明: 确保该物理GPU切割成的vGPU已全部从云主机卸载,才可执行虚拟化还原操作。

管理vGPU

目前,仅KVM集群含有vGPU设备。支持在GPU设备界面对vGPU进行以下操作:
操作 描述
启用vGPU 启用vGPU设备,启用后该vGPU设备可加载给云主机使用。
停用vGPU 停用vGPU设备,停用后该vGPU设备不可继续加载给云主机使用。
说明: 正在被云主机使用的vGPU设备可以正常使用,不受影响,直至被卸载。
设置共享模式 设置vGPU设备的共享模式,支持全局共享、指定共享、不共享。

管理dGPU

已被动态切分并加载给云主机使用的dGPU将显示在该列表。用户可对dGPU进行以下操作:
操作 描述
加载dGPU 为云主机加载dGPU设备,系统将自动按照所选的GPU设备/规格和显存模板,为云主机分配对应显存。
说明:
  • 用户可在创建云主机时加载dGPU,或在云主机操作列表/详情页通过修改GPU配置为云主机加载dGPU。
  • 加载前,需确保云主机已安装性能优化工具。
  • 仅Linux云主机可加载dGPU。
卸载dGPU 为云主机卸载dGPU设备,卸载后,系统将回收对应显存,并可分配给其他云主机使用。
说明: 用户可在云主机操作列表/详情页通过修改GPU配置为云主机卸载dGPU。