ZStack 资源中心

推理模板是一个预先配置的软件模块，旨在简化模型部署流程并提高推理效率，帮助用户快速将预训练模型集成到企业推理平台，启动推理服务。

工作原理

推理模板对常见的推理框架进行预先配置，使用户每次部署模型时，不需要从头设置环境和编写代码，从而提高部署效率。

推理模板定义了以下核心要素：

模型：定义目标模型文件的路径，确保系统可以正确加载和使用模型。
推理代码：定义推理服务运行的Python代码，包括环境变量和其他必要参数。这些代码调用模型进行实际推理操作，处理输入输出数据。
实例配置：定义运行推理服务的实例配置，包括实例镜像 (操作系统、依赖库等) 、CPU、内存、算力、存储、网络等。

系统推理模板

系统模板是ZStack AIOS预置的推理模板。

下表介绍系统推理模板的定义和兼容性，用户可以使用系统模板部署兼容清单中的模型：


系统推理模板	推理框架	简介	兼容清单
vLLM-0.17.1	vLLM	用于部署大语言模型适用于高性能、低延迟的应用场景，例如实时文本分析和智能客服系统适配NVIDIA GPU 支持基于云主机/容器的多机推理	详见推理模板兼容清单
vLLM-PPU-0.11.0	vLLM	用于部署大语言模型适用于高性能、低延迟的应用场景，例如实时文本分析和智能客服系统适配阿里PPU
vllm-ascend-0.17.0rc1	vLLM	用于部署大语言模型适用于高性能、低延迟的应用场景，例如实时文本分析和智能客服系统适配昇腾910B、310P NPU
vLLM-0.9.2-Hygon-K100AI	vLLM	用于部署大语言模型适用于高性能、低延迟的应用场景，例如实时文本分析和智能客服系统适配Hygon K100-AI GPU
vllm-0.5.0-Hygon-Z100L	vLLM	用于部署大语言模型适用于高性能、低延迟的应用场景，例如实时文本分析和智能客服系统适配Hygon Z100L GPU
Diffusers 0.37.0	Diffusers	用于部署图像/音频等生成类模型，执行图像生成、风格迁移等任务适用于创意设计、内容生成、多媒体应用等场景适配NVIDIA GPU
SGLang-0.5.9	SGLang	用于部署大语言模型适配NVIDIA GPU 支持基于云主机的多机推理
Transformers 5.3.0	Transformers	用于部署大语言、图像/音频生成模型可处理各种自然语言处理任务，包括文本分类、情感分析、机器翻译等适配NVIDIA GPU
Sentence Transformers 5.3.0	Sentence Transformers	用于部署大语言、图像/音频生成模型专注于句子级别的语义相似度计算和文本嵌入生成，在多语言处理、信息检索和推荐系统等任务中表现出色适配NVIDIA GPU
llama.cpp-b6152	llama.cpp	可以运行ggml格式的预训练模型，并调用CUDA加速支持多种硬件平台，能通过量化技术显著减少模型大小，但同时保持较高的推理精度，可用高效运行大规模语言模型
MindIE-2.3.0	MindIE	用于部署大语言、图像/音频生成模型支持基于云主机/容器的多机推理适配昇腾910B NPU 支持基于云主机/容器的多机推理
MindIE-1.0.0-310P	MindIE	用于部署大语言、图像/音频生成模型适配昇腾310P NPU

自定义推理模板

除系统模板外，用户可创建自定义推理模板。AI模型平台支持以下推理框架：vLLM、Diffusers、Transformers、Sentence Transformers、llama.cpp、Ollama、SGLang、MindIE、其他。

了解推理模板

工作原理

系统推理模板

自定义推理模板