ZStack Logo

ZStack AIOS

了解推理模板

按 AI 模型平台功能组织的 UI 操作说明和配置入口。

推理模板是一个预先配置的软件模块,旨在简化模型部署流程并提高推理效率,帮助用户快速将预训练模型集成到企业推理平台,启动推理服务。

工作原理

推理模板对常见的推理框架进行预先配置,使用户每次部署模型时,不需要从头设置环境和编写代码,从而提高部署效率。

推理模板定义了以下核心要素:
  • 模型:定义目标模型文件的路径,确保系统可以正确加载和使用模型。
  • 推理代码:定义推理服务运行的Python代码,包括环境变量和其他必要参数。这些代码调用模型进行实际推理操作,处理输入输出数据。
  • 实例配置:定义运行推理服务的实例配置,包括实例镜像 (操作系统、依赖库等) 、CPU、内存、算力、存储、网络等。

系统推理模板

系统模板是ZStack AIOS预置的推理模板。

下表介绍系统推理模板的定义和兼容性,用户可以使用系统模板部署兼容清单中的模型:
系统推理模板 推理框架 简介 兼容清单
vLLM-0.17.1 vLLM
  • 用于部署大语言模型
  • 适用于高性能、低延迟的应用场景,例如实时文本分析和智能客服系统
  • 适配NVIDIA GPU
  • 支持基于云主机/容器的多机推理
详见推理模板兼容清单
vLLM-PPU-0.11.0 vLLM
  • 用于部署大语言模型
  • 适用于高性能、低延迟的应用场景,例如实时文本分析和智能客服系统
  • 适配阿里PPU
vllm-ascend-0.17.0rc1 vLLM
  • 用于部署大语言模型
  • 适用于高性能、低延迟的应用场景,例如实时文本分析和智能客服系统
  • 适配昇腾910B、310P NPU
vLLM-0.9.2-Hygon-K100AI vLLM
  • 用于部署大语言模型
  • 适用于高性能、低延迟的应用场景,例如实时文本分析和智能客服系统
  • 适配Hygon K100-AI GPU
vllm-0.5.0-Hygon-Z100L vLLM
  • 用于部署大语言模型
  • 适用于高性能、低延迟的应用场景,例如实时文本分析和智能客服系统
  • 适配Hygon Z100L GPU
Diffusers 0.37.0 Diffusers
  • 用于部署图像/音频等生成类模型,执行图像生成、风格迁移等任务
  • 适用于创意设计、内容生成、多媒体应用等场景
  • 适配NVIDIA GPU
SGLang-0.5.9 SGLang
  • 用于部署大语言模型
  • 适配NVIDIA GPU
  • 支持基于云主机的多机推理
Transformers 5.3.0 Transformers
  • 用于部署大语言、图像/音频生成模型
  • 可处理各种自然语言处理任务,包括文本分类、情感分析、机器翻译等
  • 适配NVIDIA GPU
Sentence Transformers 5.3.0 Sentence Transformers
  • 用于部署大语言、图像/音频生成模型
  • 专注于句子级别的语义相似度计算和文本嵌入生成,在多语言处理、信息检索和推荐系统等任务中表现出色
  • 适配NVIDIA GPU
llama.cpp-b6152 llama.cpp
  • 可以运行ggml格式的预训练模型,并调用CUDA加速
  • 支持多种硬件平台,能通过量化技术显著减少模型大小,但同时保持较高的推理精度,可用高效运行大规模语言模型
MindIE-2.3.0 MindIE
  • 用于部署大语言、图像/音频生成模型
  • 支持基于云主机/容器的多机推理
  • 适配昇腾910B NPU
  • 支持基于云主机/容器的多机推理
MindIE-1.0.0-310P MindIE
  • 用于部署大语言、图像/音频生成模型
  • 适配昇腾310P NPU

自定义推理模板

除系统模板外,用户可创建自定义推理模板。AI模型平台支持以下推理框架:vLLM、Diffusers、Transformers、Sentence Transformers、llama.cpp、Ollama、SGLang、MindIE、其他。