推理模板是一个预先配置的软件模块,旨在简化模型部署流程并提高推理效率,帮助用户快速将预训练模型集成到企业推理平台,启动推理服务。
工作原理
推理模板对常见的推理框架进行预先配置,使用户每次部署模型时,不需要从头设置环境和编写代码,从而提高部署效率。
推理模板定义了以下核心要素:
- 模型:定义目标模型文件的路径,确保系统可以正确加载和使用模型。
- 推理代码:定义推理服务运行的Python代码,包括环境变量和其他必要参数。这些代码调用模型进行实际推理操作,处理输入输出数据。
- 实例配置:定义运行推理服务的实例配置,包括实例镜像 (操作系统、依赖库等) 、CPU、内存、算力、存储、网络等。
系统推理模板
系统模板是ZStack AIOS预置的推理模板。
下表介绍系统推理模板的定义和兼容性,用户可以使用系统模板部署兼容清单中的模型:
| 系统推理模板 | 推理框架 | 简介 | 兼容清单 |
|---|---|---|---|
| vLLM-0.17.1 | vLLM |
|
详见推理模板兼容清单 |
| vLLM-PPU-0.11.0 | vLLM |
|
|
| vllm-ascend-0.17.0rc1 | vLLM |
|
|
| vLLM-0.9.2-Hygon-K100AI | vLLM |
|
|
| vllm-0.5.0-Hygon-Z100L | vLLM |
|
|
| Diffusers 0.37.0 | Diffusers |
|
|
| SGLang-0.5.9 | SGLang |
|
|
| Transformers 5.3.0 | Transformers |
|
|
| Sentence Transformers 5.3.0 | Sentence Transformers |
|
|
| llama.cpp-b6152 | llama.cpp |
|
|
| MindIE-2.3.0 | MindIE |
|
|
| MindIE-1.0.0-310P | MindIE |
|
自定义推理模板
除系统模板外,用户可创建自定义推理模板。AI模型平台支持以下推理框架:vLLM、Diffusers、Transformers、Sentence Transformers、llama.cpp、Ollama、SGLang、MindIE、其他。