dGPU基于CUDA API拦截转发技术,按需切分物理GPU显存,动态分配给不同云主机使用。借助该技术,多个服务可共享同一张物理GPU卡,大幅提升GPU利用率,降低AI算力成本。
本场景假定用户需基于系统模型DeepSeek-R1-Distill-Qwen-7B部署推理服务。当前物理机上装有一张NVIDIA GPU卡
(总显存:24GB) ,需供多个业务使用,无法被该推理服务独占。用户通过dGPU模式,申请其中12GB显存用于独立运行该推理服务,同时保证其他业务不受影响。
说明: 使用本功能,需确保:
- 提前购买dGPU算力切分许可证。
- 物理机使用x86_64操作系统。
- 准备NVIDIA GPU驱动 (570.x或以上版本) 、CUDA (12.1或以上版本) 。
- 用于部署推理服务的云主机使用Linux操作系统,并安装性能优化工具。
本节以上述场景为例,详细介绍使用dGPU创建推理服务的方法,主要包括以下步骤:
- 准备物理GPU设备
- 为物理GPU启用dGPU模式
- 创建推理服务
- 进入推理服务
至此,使用dGPU的推理服务已创建完成。物理GPU的剩余显存仍可以dGPU形式分配给其他云主机使用。用户可在列表,持续关注dGPU状态和使用情况。


