ZStack Logo

ZStack AIOS

使用dGPU创建推理服务

AIOS 用户侧功能说明,覆盖 GPU、模型仓库、推理服务和场景实践。

dGPU基于CUDA API拦截转发技术,按需切分物理GPU显存,动态分配给不同云主机使用。借助该技术,多个服务可共享同一张物理GPU卡,大幅提升GPU利用率,降低AI算力成本。

本场景假定用户需基于系统模型DeepSeek-R1-Distill-Qwen-7B部署推理服务。当前物理机上装有一张NVIDIA GPU卡 (总显存:24GB) ,需供多个业务使用,无法被该推理服务独占。用户通过dGPU模式,申请其中12GB显存用于独立运行该推理服务,同时保证其他业务不受影响。
说明: 使用本功能,需确保:
  • 提前购买dGPU算力切分许可证。
  • 物理机使用x86_64操作系统。
  • 准备NVIDIA GPU驱动 (570.x或以上版本) 、CUDA (12.1或以上版本) 。
  • 用于部署推理服务的云主机使用Linux操作系统,并安装性能优化工具。
本节以上述场景为例,详细介绍使用dGPU创建推理服务的方法,主要包括以下步骤:
  1. 准备物理GPU设备
  2. 为物理GPU启用dGPU模式
  3. 创建推理服务
  4. 进入推理服务
  1. 准备物理GPU设备
    1. 准备物理GPU设备,并在物理机上安装
    2. 确保物理机BIOS已开启Intel VT-d/AMD IOMMU
    3. 在物理机详情页开启IOMMU
      登录ZStack AIOS UI界面,点击资源中心 > 硬件设施 > 物理机,选择目标物理机,点击进入其详情页。在物理机详情页开启IOMMU启用状态,并确认IOMMU就绪状态可用
      图1所示:


      图1 开启物理机IOMMU
    4. 为物理机安装GPU驱动和CUDA
      为物理机安装NVIDIA GPU驱动 (570.x或以上版本) 、CUDA (12.1或以上版本) 。
  2. 为物理GPU启用dGPU模式
    说明:
    • 启用dGPU模式后,该物理GPU设备无法使用透传、vGPU功能;正在用于透传或vGPU的物理GPU设备无法启用dGPU模式。
    • 如一台物理机上安装多个物理GPU设备,所有物理GPU设备必须同步开启/停用dGPU模式。如有物理GPU已透传给云主机使用,需先从云主机卸载。
    在物理机详情页,点击关联资源 > 物理GPU设备。在物理GPU设备列表,选择目标物理GPU,点击操作 > 启用dGPU模式
    可参考以下示例进行参数设置:
    • 物理GPU规格:显示当前GPU设备对应的规格信息
    • dGPU显存模板:显示当前GPU规格已设置的dGPU显存模板,用户可点击设置显存模板,跳转到设置dGPU显存模板界面,调整以下参数:
      • dGPU显存模板:设置使用该GPU进行dGPU算力切分时,云主机可调度的显存大小,可添加多个显存模板。本场景中,确保已添加12GB的显存模板,供后续推理服务使用
      • dGPU通信共享内存:在物理机上创建 dGPU 的专属底层高速通信设备。常规场景下可设置为256MB,高吞吐业务场景可适量调大,本场景设置为512MB
    显存模板和dGPU模式均设置完成后,点击确定
    图2图3所示:


    图2 启用dGPU模式


    图3 设置dGPU显存模板
  3. 创建推理服务
    ZStack AIOS主菜单,点击AI模型平台 > 模型仓库,进入模型仓库界面。找到并点击DeepSeek-R1-Distill-Qwen-7B,在右侧详情页,点击创建推理服务,弹出创建推理服务界面。
    可参考以下示例输入相应内容:
    • 基础配置
      • 部署名称:设置推理服务名称,本场景设置为deepseek-7b-dgpu
      • 模型:显示当前部署的模型名称DeepSeek-R1-Distill-Qwen-7B
      • 推理模板:使用默认推理模板vLLM-0.15.1
      • 指定项目:是否将推理服务指定给某个项目使用。本场景不指定,推理服务全局可用
      • 部署方式:选择云主机
      • 实例数量:选择用于运行该推理服务的云主机数量,本场景部署单实例推理模式,即实例数量为1
        说明: 如需部署多实例推理服务,请确保GPU型号、推理模板支持,用户可通过推理模板GPU设备章节查询。实例数量和GPU数量必须是2的N次方。
      • 资源高级配置:点击展开,配置云主机详细参数
        • CPU架构:选择x86_64
        • 集群:指定云主机运行的集群,如不指定,将由系统自动分配
        • 网络:指定云主机使用的IP地址,如不指定,将由系统自动分配
        • 云主机镜像:选择云主机镜像。本场景使用推理模板中的默认镜像
          说明: 使用dGPU功能,需安装云主机性能优化工具,系统推理模板的默认镜像中已经预装,如使用自定义镜像,需在推理服务部署完成后,进入云主机详情页安装。
        • 每实例GPU配置:勾选使用GPU
          • GPU类型:本场景选择dGPU
          • GPU规格:选择上一步中启用dGPU模式的GPU设备对应的规格
          • 显存模板:在显存模板中,选择云主机加载的显存大小,本场景选择12GB
        • 每实例CPU:按需设置云主机CPU大小
        • 每实例内存:按需设置云主机内存大小
        • 卸载机制:选择是否关机自动卸载已加载的GPU显存
          说明:
          • 勾选后,云主机关机将自动卸载已加载的GPU显存,可调度给其他云主机使用。云主机重新开机,系统将按其GPU规格和显存模板重新分配显存。
          • 如不勾选,云主机关机后仍然保有GPU显存,但如发生意外关机,将无法高可用启动。
    • 服务配置:按需设置推理服务端口、并发数、启动变量、环境变量等参数。
    设置完成后,点击确定,开始创建推理服务。
    系统将自动完成以下操作:创建云主机,为该云主机分配12GB dGPU显存,并在云主机中部署推理服务。
  4. 进入推理服务
    ZStack AIOS主菜单,点击AI模型平台 > 服务和应用 > 推理服务,进入推理服务界面。选择刚刚部署的推理服务,点击进入服务,即可进行试用和调试。

至此,使用dGPU的推理服务已创建完成。物理GPU的剩余显存仍可以dGPU形式分配给其他云主机使用。用户可在资源中心 > 硬件设施 > GPU设备 > dGPU列表,持续关注dGPU状态和使用情况。