前提条件
操作步骤
支持通过两个入口创建推理服务:
- 入口一:在ZStack AIOS主菜单,点击。在模型仓库界面,选择一个模型,点击创建推理服务,进入创建推理服务界面。
- 入口二: 在ZStack AIOS主菜单,点击。在推理服务界面,点击创建推理服务,进入创建推理服务界面。
如图1所示:



图1 创建推理服务



创建推理服务包含基础配置和服务配置两个标签页,可参考以下示例输入相应内容:
基础配置 - 基本信息
- 部署名称:设置推理服务名称
- 简介:可选项,点击+ 添加简介展开输入框,填写推理服务简介
- 模型:选择需要部署的模型,选择模型后系统将自动匹配推理模板
- 推理模板:系统根据所选模型自动匹配推理模板,用户也可手动调整,选择其他模板说明: 为提高模型部署成功率,用户可点击推理兼容性评估工具,填写目标部署方案 (部署方式、GPU型号、推理模板) ,系统将生成初步兼容性评估,为模型部署提供可行性参考。
- 指定项目:可选项,默认为不指定,在当前用户下创建推理服务。如选择目标项目,则在目标项目下创建推理服务,目标项目下的成员可查看和管理。说明: 如所选模型、推理模板、网络、主存储、云主机镜像、GPU规格等资源未共享至目标项目,将弹出存在未共享的资源提示框,点击共享并创建,相关资源将自动共享至目标项目并完成创建。
- 部署方式:选择模型部署方式,提供容器、云主机两种方式,但具体可选的部署方式受推理模板限制
- 实例数量:选择用于运行推理服务的实例数量说明:
- 仅使用支持多实例推理的模板时,可设置本参数。使用不支持多实例推理的模板,默认部署1台实例。
- 如部署多台实例,请确保使用的GPU设备支持多实例推理,详情可参考GPU设备管理-推理部署。
- dGPU当前不支持多实例部署。
- 如部署多台实例,实例数量必须是2的N次方。
基础配置 - 资源高级配置
点击展开高级选项,可查看并调整以下参数(部分参数仅在特定部署方式下展示):
- CPU架构:选择实例CPU架构说明:
- 请选择推理模板支持的CPU架构。
- 请确保平台内存在所选架构的集群,以便将实例部署到对应的集群。
- 指定集群:可选项,手动指定实例所在的集群。如不指定,将由系统自动分配
- 网络:设置实例使用的网络及指定IP,如不指定IP,系统将自动分配
- 主存储:仅云主机部署可见。可选项,手动指定云主机使用的主存储,如不指定,将由系统自动分配
- 每实例GPU配置:选择是否为实例加载GPU设备,如勾选使用GPU,需设置以下参数:
- GPU规格:选择加载的GPU厂商、规格
- GPU数量:设置每实例加载的GPU数量说明: 如部署多台实例,GPU数量必须是2的N次方。
- 指定显存:设置每GPU的显存大小
- 卸载机制:仅云主机部署可见。选择是否关机自动卸载GPU设备说明:
- 关机自动卸载:云主机关机后将自动卸载GPU设备,开机后,系统将按照所选规格为其重新分配。
- 关机不自动卸载:云主机关机后将继续保有已加载的GPU设备,但如意外关机,可能无法高可用启动。
- 每实例CPU:分别设置每实例CPU的限制和申请核数
- 每实例内存:分别设置每实例内存的限制和申请大小
- 容器镜像:仅容器部署可见。系统默认选择推理模板中的容器镜像,用户也可手动调整,使用其他镜像
- 云主机镜像:仅云主机部署可见。系统默认选择推理模板中的云主机镜像,用户也可手动调整,选择其他镜像
服务配置