ZStack AIOS

了解dGPU

按 AI 模型平台功能组织的 UI 操作说明和配置入口。

dGPU（dynamic GPU）基于CUDA API拦截转发技术，将NVIDIA物理GPU显存按需动态切分，调度给不同云主机使用。多个云主机可共享同一张物理GPU卡，最大化GPU算力利用率。

管理员在GPU规格上预定义若干dGPU显存模板，用户加载dGPU时按模板选择所需显存大小。云主机加载dGPU时，系统动态切分显存；云主机关机或卸载dGPU时，显存资源被回收，可重新调度给其他云主机。

应用场景

AI推理服务部署：多个推理服务共享同一张物理GPU，按需分配显存，降低AI算力成本。
模型精调：为精调任务分配dGPU显存，避免独占整张物理GPU。
深度学习等计算场景：对GPU显存需求灵活、允许多任务共享的场景。

使用前提

使用dGPU功能，需确保：

已部署ZStack AIOS智算版，并提前购买dGPU算力切分许可证。
物理机使用x86_64架构操作系统，并已开启Intel VT-d或AMD IOMMU。
物理GPU为NVIDIA Volta架构及以上型号。
物理机已安装NVIDIA GPU驱动（570.x或以上版本）、CUDA（12.1或以上版本）。
用于加载dGPU的云主机使用Linux操作系统，并安装性能优化工具，以实现dGPU识别与通信。

约束条件

物理GPU、vGPU模式、dGPU模式三种模式互斥，同一张物理GPU同一时刻仅支持一种模式。启用dGPU模式前，需确保该物理GPU未用于透传或vGPU。
如一台物理机上安装多个物理GPU，所有物理GPU需同步启用/停用dGPU模式。
dGPU与云主机必须在同一物理机上调度，不支持远程加载。
单台云主机当前仅支持加载一个dGPU设备，且不支持多实例推理服务部署。
云主机迁移前，需先卸载已加载的dGPU设备。

相关术语


术语	说明
dGPU模式	物理GPU的一种使用模式，基于CUDA API拦截转发技术实现软件切分，支持多个云主机共享同一张物理GPU。
dGPU显存模板	管理员在GPU规格上预定义的一组可选显存大小。用户加载dGPU时，按模板选择所需显存大小。
dGPU通信共享内存	在物理机上为dGPU创建的专属底层高速通信设备，用于提升dGPU运行效率。常规推理场景建议设为256 MB，高吞吐业务场景（如vLLM大语言模型）可适量调大。
dGPU设备	从物理GPU上按显存模板切分出的虚拟GPU设备，加载到云主机后供业务使用。

典型使用流程

首次使用dGPU，建议按以下顺序完成配置：

在GPU规格上设置dGPU显存模板，定义用户可选的显存大小。详见设置dGPU显存模板。
在目标物理GPU设备上启用dGPU模式。详见启用dGPU模式。
在创建云主机或创建推理服务/精调任务时，GPU类型选择dGPU，按显存模板加载dGPU。详见为云主机加载dGPU。
在GPU设备的dGPU标签页，持续关注dGPU设备的工作状态和使用情况。详见管理dGPU。