dGPU(dynamic GPU)基于CUDA API拦截转发技术,将NVIDIA物理GPU显存按需动态切分,调度给不同云主机使用。多个云主机可共享同一张物理GPU卡,最大化GPU算力利用率。
管理员在GPU规格上预定义若干dGPU显存模板,用户加载dGPU时按模板选择所需显存大小。云主机加载dGPU时,系统动态切分显存;云主机关机或卸载dGPU时,显存资源被回收,可重新调度给其他云主机。
应用场景
- AI推理服务部署:多个推理服务共享同一张物理GPU,按需分配显存,降低AI算力成本。
- 模型精调:为精调任务分配dGPU显存,避免独占整张物理GPU。
- 深度学习等计算场景:对GPU显存需求灵活、允许多任务共享的场景。
使用前提
使用dGPU功能,需确保:
- 已部署ZStack AIOS智算版,并提前购买dGPU算力切分许可证。
- 物理机使用x86_64架构操作系统,并已开启Intel VT-d或AMD IOMMU。
- 物理GPU为NVIDIA Volta架构及以上型号。
- 物理机已安装NVIDIA GPU驱动(570.x或以上版本)、CUDA(12.1或以上版本)。
- 用于加载dGPU的云主机使用Linux操作系统,并安装性能优化工具,以实现dGPU识别与通信。
约束条件
- 物理GPU、vGPU模式、dGPU模式三种模式互斥,同一张物理GPU同一时刻仅支持一种模式。启用dGPU模式前,需确保该物理GPU未用于透传或vGPU。
- 如一台物理机上安装多个物理GPU,所有物理GPU需同步启用/停用dGPU模式。
- dGPU与云主机必须在同一物理机上调度,不支持远程加载。
- 单台云主机当前仅支持加载一个dGPU设备,且不支持多实例推理服务部署。
- 云主机迁移前,需先卸载已加载的dGPU设备。
相关术语
| 术语 | 说明 |
|---|---|
| dGPU模式 | 物理GPU的一种使用模式,基于CUDA API拦截转发技术实现软件切分,支持多个云主机共享同一张物理GPU。 |
| dGPU显存模板 | 管理员在GPU规格上预定义的一组可选显存大小。用户加载dGPU时,按模板选择所需显存大小。 |
| dGPU通信共享内存 | 在物理机上为dGPU创建的专属底层高速通信设备,用于提升dGPU运行效率。常规推理场景建议设为256 MB,高吞吐业务场景(如vLLM大语言模型)可适量调大。 |
| dGPU设备 | 从物理GPU上按显存模板切分出的虚拟GPU设备,加载到云主机后供业务使用。 |
典型使用流程
首次使用dGPU,建议按以下顺序完成配置:
- 在GPU规格上设置dGPU显存模板,定义用户可选的显存大小。详见设置dGPU显存模板。
- 在目标物理GPU设备上启用dGPU模式。详见启用dGPU模式。
- 在创建云主机或创建推理服务/精调任务时,GPU类型选择dGPU,按显存模板加载dGPU。详见为云主机加载dGPU。
- 在GPU设备的dGPU标签页,持续关注dGPU设备的工作状态和使用情况。详见管理dGPU。