ZStack Logo

ZStack AIOS

创建推理服务

AIOS 用户侧功能说明,覆盖 GPU、模型仓库、推理服务和场景实践。

前提条件

  • 已准备待部署的模型
    • 可直接部署系统模型
    • 如部署自定义模型,可参考添加模型提前将自定义模型上传到AI模型平台
  • 已准备推理模板
    • 部署系统模型,可直接使用已绑定的系统推理模板
    • 如部署自定义模型,可使用系统推理模板或自定义推理模板

操作步骤

支持通过两个入口创建推理服务:
  • 入口一:在ZStack AIOS主菜单,点击AI模型平台 > 模型仓库。在模型仓库界面,选择一个模型,点击创建推理服务,进入创建推理服务界面。
  • 入口二: 在ZStack AIOS主菜单,点击AI模型平台 > 服务和应用 > 推理服务。在推理服务界面,点击创建推理服务,进入创建推理服务界面。
图1所示:






图1 创建推理服务

创建推理服务包含基础配置服务配置两个标签页,可参考以下示例输入相应内容:

基础配置 - 基本信息

  • 部署名称:设置推理服务名称
  • 简介:可选项,点击+ 添加简介展开输入框,填写推理服务简介
  • 模型:选择需要部署的模型,选择模型后系统将自动匹配推理模板
  • 推理模板:系统根据所选模型自动匹配推理模板,用户也可手动调整,选择其他模板
    说明: 为提高模型部署成功率,用户可点击推理兼容性评估工具,填写目标部署方案 (部署方式、GPU型号、推理模板) ,系统将生成初步兼容性评估,为模型部署提供可行性参考。
  • 指定项目:可选项,默认为不指定,在当前用户下创建推理服务。如选择目标项目,则在目标项目下创建推理服务,目标项目下的成员可查看和管理。
    说明: 如所选模型、推理模板、网络、主存储、云主机镜像、GPU规格等资源未共享至目标项目,将弹出存在未共享的资源提示框,点击共享并创建,相关资源将自动共享至目标项目并完成创建。
  • 部署方式:选择模型部署方式,提供容器云主机两种方式,但具体可选的部署方式受推理模板限制
  • 实例数量:选择用于运行推理服务的实例数量
    说明:
    • 仅使用支持多实例推理的模板时,可设置本参数。使用不支持多实例推理的模板,默认部署1台实例。
    • 如部署多台实例,请确保使用的GPU设备支持多实例推理,详情可参考GPU设备管理-推理部署
    • dGPU当前不支持多实例部署。
    • 如部署多台实例,实例数量必须是2的N次方。

基础配置 - 资源高级配置

点击展开高级选项,可查看并调整以下参数(部分参数仅在特定部署方式下展示):
  • CPU架构:选择实例CPU架构
    说明:
    • 请选择推理模板支持的CPU架构。
    • 请确保平台内存在所选架构的集群,以便将实例部署到对应的集群。
  • 指定集群:可选项,手动指定实例所在的集群。如不指定,将由系统自动分配
  • 网络:设置实例使用的网络及指定IP,如不指定IP,系统将自动分配
  • 主存储:仅云主机部署可见。可选项,手动指定云主机使用的主存储,如不指定,将由系统自动分配
  • 每实例GPU配置:选择是否为实例加载GPU设备,如勾选使用GPU,需设置以下参数:
    • GPU规格:选择加载的GPU厂商、规格
    • GPU数量:设置每实例加载的GPU数量
      说明: 如部署多台实例,GPU数量必须是2的N次方。
    • 指定显存:设置每GPU的显存大小
    • 卸载机制:仅云主机部署可见。选择是否关机自动卸载GPU设备
      说明:
      • 关机自动卸载:云主机关机后将自动卸载GPU设备,开机后,系统将按照所选规格为其重新分配。
      • 关机不自动卸载:云主机关机后将继续保有已加载的GPU设备,但如意外关机,可能无法高可用启动。
  • 每实例CPU:分别设置每实例CPU的限制申请核数
  • 每实例内存:分别设置每实例内存的限制申请大小
  • 容器镜像:仅容器部署可见。系统默认选择推理模板中的容器镜像,用户也可手动调整,使用其他镜像
  • 云主机镜像:仅云主机部署可见。系统默认选择推理模板中的云主机镜像,用户也可手动调整,选择其他镜像

服务配置

切换至服务配置标签页:
  • 服务端口:设置推理服务端口
    说明:
    • 请勿设置为8888 (服务Notebook端口) 或已被占用的端口,避免与其他服务发生冲突
    • 建议避免使用端口占用中列举的端口
  • 最大并发数:设置推理服务最大并发数
  • 环境变量:可选项。添加环境变量,详情可参考配置环境变量
  • 启动变量:可选项。添加启动变量,详情可参考配置启动变量
  • 启动命令:设置推理服务启动命令
  • 存活检测路径:设置存活检测路径,用于检测推理服务是否存活
  • 服务状态检测路径:设置服务状态检测路径,用于检测推理服务是否就绪
  • 服务启动超时:设置服务启动超时时间,如超过该时间服务仍未成功启动,系统将判定服务启动超时