ZStack 资源中心

dGPU基于CUDA API拦截转发技术，按需切分物理GPU显存，动态分配给不同云主机使用。借助该技术，多个服务可共享同一张物理GPU卡，大幅提升GPU利用率，降低AI算力成本。

本场景假定用户需基于系统模型DeepSeek-R1-Distill-Qwen-7B部署推理服务。当前物理机上装有一张NVIDIA GPU卡 (总显存：24GB) ，需供多个业务使用，无法被该推理服务独占。用户通过dGPU模式，申请其中12GB显存用于独立运行该推理服务，同时保证其他业务不受影响。

说明：使用本功能，需确保：

提前购买dGPU算力切分许可证。
物理机使用x86_64操作系统。
准备NVIDIA GPU驱动 (570.x或以上版本) 、CUDA (12.1或以上版本) 。
用于部署推理服务的云主机使用Linux操作系统，并安装性能优化工具。

本节以上述场景为例，详细介绍使用dGPU创建推理服务的方法，主要包括以下步骤：

准备物理GPU设备
为物理GPU启用dGPU模式
创建推理服务
进入推理服务

准备物理GPU设备
1. 准备物理GPU设备，并在物理机上安装
2. 确保物理机BIOS已开启Intel VT-d/AMD IOMMU
3. 在物理机详情页开启IOMMU
  登录ZStack AIOS UI界面，点击资源中心 > 硬件设施 > 物理机，选择目标物理机，点击进入其详情页。在物理机详情页开启IOMMU启用状态，并确认IOMMU就绪状态为可用。
  
  如图1所示：
  
  图1 开启物理机IOMMU
4. 为物理机安装GPU驱动和CUDA
  为物理机安装NVIDIA GPU驱动 (570.x或以上版本) 、CUDA (12.1或以上版本) 。
为物理GPU启用dGPU模式
i说明：
- 启用dGPU模式后，该物理GPU设备无法使用透传、vGPU功能；正在用于透传或vGPU的物理GPU设备无法启用dGPU模式。
- 如一台物理机上安装多个物理GPU设备，所有物理GPU设备必须同步开启/停用dGPU模式。如有物理GPU已透传给云主机使用，需先从云主机卸载。
在物理机详情页，点击关联资源 > 物理GPU设备。在物理GPU设备列表，选择目标物理GPU，点击操作 > 启用dGPU模式。
可参考以下示例进行参数设置：
- 物理GPU规格：显示当前GPU设备对应的规格信息
- dGPU显存模板：显示当前GPU规格已设置的dGPU显存模板，用户可点击设置显存模板，跳转到设置dGPU显存模板界面，调整以下参数：
  - dGPU显存模板：设置使用该GPU进行dGPU算力切分时，云主机可调度的显存大小，可添加多个显存模板。本场景中，确保已添加12GB的显存模板，供后续推理服务使用
  - dGPU通信共享内存：在物理机上创建 dGPU 的专属底层高速通信设备。常规场景下可设置为256MB，高吞吐业务场景可适量调大，本场景设置为512MB
显存模板和dGPU模式均设置完成后，点击确定。

如图2、图3所示：

图2 启用dGPU模式

图3 设置dGPU显存模板
创建推理服务
在ZStack AIOS主菜单，点击AI模型平台 > 模型仓库，进入模型仓库界面。找到并点击DeepSeek-R1-Distill-Qwen-7B，在右侧详情页，点击创建推理服务，弹出创建推理服务界面。
可参考以下示例输入相应内容：
- 基础配置
  - 部署名称：设置推理服务名称，本场景设置为deepseek-7b-dgpu
  - 模型：显示当前部署的模型名称DeepSeek-R1-Distill-Qwen-7B
  - 推理模板：使用默认推理模板vLLM-0.15.1
  - 指定项目：是否将推理服务指定给某个项目使用。本场景不指定，推理服务全局可用
  - 部署方式：选择云主机
  - 实例数量：选择用于运行该推理服务的云主机数量，本场景部署单实例推理模式，即实例数量为1
    说明：如需部署多实例推理服务，请确保GPU型号、推理模板支持，用户可通过推理模板、GPU设备章节查询。实例数量和GPU数量必须是2的N次方。
  - 资源高级配置：点击展开，配置云主机详细参数
    - CPU架构：选择x86_64
    - 集群：指定云主机运行的集群，如不指定，将由系统自动分配
    - 网络：指定云主机使用的IP地址，如不指定，将由系统自动分配
    - 云主机镜像：选择云主机镜像。本场景使用推理模板中的默认镜像
      说明：使用dGPU功能，需安装云主机性能优化工具，系统推理模板的默认镜像中已经预装，如使用自定义镜像，需在推理服务部署完成后，进入云主机详情页安装。
    - 每实例GPU配置：勾选使用GPU
      
      GPU类型：本场景选择dGPU
      
      GPU规格：选择上一步中启用dGPU模式的GPU设备对应的规格
      
      显存模板：在显存模板中，选择云主机加载的显存大小，本场景选择12GB
    - 每实例CPU：按需设置云主机CPU大小
    - 每实例内存：按需设置云主机内存大小
    - 卸载机制：选择是否关机自动卸载已加载的GPU显存
      说明：
      
      勾选后，云主机关机将自动卸载已加载的GPU显存，可调度给其他云主机使用。云主机重新开机，系统将按其GPU规格和显存模板重新分配显存。
      
      如不勾选，云主机关机后仍然保有GPU显存，但如发生意外关机，将无法高可用启动。
- 服务配置：按需设置推理服务端口、并发数、启动变量、环境变量等参数。
设置完成后，点击确定，开始创建推理服务。

系统将自动完成以下操作：创建云主机，为该云主机分配12GB dGPU显存，并在云主机中部署推理服务。
进入推理服务
在ZStack AIOS主菜单，点击AI模型平台 > 服务和应用 > 推理服务，进入推理服务界面。选择刚刚部署的推理服务，点击进入服务，即可进行试用和调试。

至此，使用dGPU的推理服务已创建完成。物理GPU的剩余显存仍可以dGPU形式分配给其他云主机使用。用户可在资源中心 > 硬件设施 > GPU设备 > dGPU列表，持续关注dGPU状态和使用情况。