ZStack 资源中心

前提条件

已准备待部署的模型
- 可直接部署系统模型
- 如部署自定义模型，可参考添加模型提前将自定义模型上传到AI模型平台
已准备推理模板
- 部署系统模型，可直接使用已绑定的系统推理模板
- 如部署自定义模型，可使用系统推理模板或自定义推理模板
  - 如使用系统模板，需保证模型兼容，详情可参考推理模板兼容清单
  - 如使用自定义模板，可参考添加推理模板提前创建

操作步骤

支持通过两个入口创建推理服务：

入口一：在ZStack AIOS主菜单，点击AI模型平台 > 模型仓库。在模型仓库界面，选择一个模型，点击创建推理服务，进入创建推理服务界面。
入口二：在ZStack AIOS主菜单，点击AI模型平台 > 服务和应用 > 推理服务。在推理服务界面，点击创建推理服务，进入创建推理服务界面。

如图1所示：

创建推理服务包含基础配置和服务配置两个标签页，可参考以下示例输入相应内容：

基础配置 - 基本信息

部署名称：设置推理服务名称
简介：可选项，点击+ 添加简介展开输入框，填写推理服务简介
模型：选择需要部署的模型，选择模型后系统将自动匹配推理模板
推理模板：系统根据所选模型自动匹配推理模板，用户也可手动调整，选择其他模板
说明：为提高模型部署成功率，用户可点击推理兼容性评估工具，填写目标部署方案 (部署方式、GPU型号、推理模板) ，系统将生成初步兼容性评估，为模型部署提供可行性参考。
指定项目：可选项，默认为不指定，在当前用户下创建推理服务。如选择目标项目，则在目标项目下创建推理服务，目标项目下的成员可查看和管理。
说明：如所选模型、推理模板、网络、主存储、云主机镜像、GPU规格等资源未共享至目标项目，将弹出存在未共享的资源提示框，点击共享并创建，相关资源将自动共享至目标项目并完成创建。
部署方式：选择模型部署方式，提供容器、云主机两种方式，但具体可选的部署方式受推理模板限制
实例数量：选择用于运行推理服务的实例数量
i说明：
- 仅使用支持多实例推理的模板时，可设置本参数。使用不支持多实例推理的模板，默认部署1台实例。
- 如部署多台实例，请确保使用的GPU设备支持多实例推理，详情可参考GPU设备管理-推理部署。
- dGPU当前不支持多实例部署。
- 如部署多台实例，实例数量必须是2的N次方。

基础配置 - 资源高级配置

点击展开高级选项，可查看并调整以下参数（部分参数仅在特定部署方式下展示）：

CPU架构：选择实例CPU架构
i说明：
- 请选择推理模板支持的CPU架构。
- 请确保平台内存在所选架构的集群，以便将实例部署到对应的集群。
指定集群：可选项，手动指定实例所在的集群。如不指定，将由系统自动分配
网络：设置实例使用的网络及指定IP，如不指定IP，系统将自动分配
主存储：仅云主机部署可见。可选项，手动指定云主机使用的主存储，如不指定，将由系统自动分配
每实例GPU配置：选择是否为实例加载GPU设备，如勾选使用GPU，需设置以下参数：
- GPU规格：选择加载的GPU厂商、规格
- GPU数量：设置每实例加载的GPU数量
  说明：如部署多台实例，GPU数量必须是2的N次方。
- 指定显存：设置每GPU的显存大小
- 卸载机制：仅云主机部署可见。选择是否关机自动卸载GPU设备
  i说明：
  - 关机自动卸载：云主机关机后将自动卸载GPU设备，开机后，系统将按照所选规格为其重新分配。
  - 关机不自动卸载：云主机关机后将继续保有已加载的GPU设备，但如意外关机，可能无法高可用启动。
每实例CPU：分别设置每实例CPU的限制和申请核数
每实例内存：分别设置每实例内存的限制和申请大小
容器镜像：仅容器部署可见。系统默认选择推理模板中的容器镜像，用户也可手动调整，使用其他镜像
云主机镜像：仅云主机部署可见。系统默认选择推理模板中的云主机镜像，用户也可手动调整，选择其他镜像

服务配置

切换至服务配置标签页：

服务端口：设置推理服务端口
i说明：
- 请勿设置为8888 (服务Notebook端口) 或已被占用的端口，避免与其他服务发生冲突
- 建议避免使用端口占用中列举的端口
最大并发数：设置推理服务最大并发数
环境变量：可选项。添加环境变量，详情可参考配置环境变量
启动变量：可选项。添加启动变量，详情可参考配置启动变量
启动命令：设置推理服务启动命令
存活检测路径：设置存活检测路径，用于检测推理服务是否存活
服务状态检测路径：设置服务状态检测路径，用于检测推理服务是否就绪
服务启动超时：设置服务启动超时时间，如超过该时间服务仍未成功启动，系统将判定服务启动超时