ZStack Logo

ZStack AIOS

产品功能

AIOS 用户侧功能说明,覆盖 GPU、模型仓库、推理服务和场景实践。

使用ZStack AIOS需购买平台许可证和模块许可证。本章节涵盖ZStack AIOS完整功能范围,实际可用的功能请以购买的许可证为准。

类别 特性 描述
GPU运维 / 使用GPU运维功能,需购买ZStack AIOS智算版平台许可证
GPU设备批量管理 支持集中查看、管理当前平台内全部物理GPU/vGPU设备,包括物理机集群中的GPU、弹性裸金属集群中的GPU和容器集群中的GPU设备
支持按所属集群、节点和实例快速定位GPU设备
物理机/弹性裸金属集群下,支持GPU设备的启用、停用等基本生命周期管理
物理机/弹性裸金属集群下,支持设置物理GPU/vGPU设备共享模式,包括:全局共享、指定共享 (仅共享给指定项目/账户) 、不共享
物理机/弹性裸金属集群下,支持物理GPU设备直接分配给云主机/弹性裸金属实例使用
物理机集群下,支持对物理GPU进行虚拟化切割,形成vGPU设备并分配给云主机使用
物理机集群下,支持将已虚拟化切割的物理GPU设备还原
容器集群下,支持将物理GPU设备分配给容器使用
支持编辑物理GPU设备名称
GPU设备监控和报警 支持查看GPU设备厂商、型号、类型、规格等基础信息
支持实时查看物理GPU设备工作状态、利用率、显存利用率、功耗、温度、风扇转速、PCIe Rx吞吐量、PCIe Tx吞吐量等监控信息
支持实时查看vGPU设备工作状态、利用率、显存利用率等监控信息
支持针对GPU设备状态、利用率、显存利用率、温度等监控项创建报警器,检测到异常时可及时发送报警通知
容器管理 / 使用容器管理功能,需购买ZStack AIOS智算版平台许可证和容器管理-CPU容器管理-vCPU模块许可证
支持资源概览、容器编排、制品仓库、容器运维、DevOps、容器集群管理,和容器服务设置等丰富功能,并为AI模型平台提供容器引擎。详情可查看容器管理功能
AI模型平台 / 使用AI模型平台功能,需购买ZStack AIOS智算版平台许可证和AI模型平台-基础服务AI模型平台-GPU模块许可证
模型仓库 支持集中存储、管理系统模型和自定义模型
系统模型由系统预置,包括多款开源模型,例如:Qwen、Stable diffusion、XTTS、Yolo等
自定义模型由用户自行上传,支持通过本地文件、URL上传,或从Hugging Face、Model Scope导入
上传模型支持断点续传,上传任务手动或因系统异常自动暂停后,已上传数据可保留 24 小时,期间可手动继续本任务
支持手动取消模型上传任务
支持自定义模型的添加、删除等基本生命周期管理
支持修改自定义模型名称、简介
支持为自定义模型设置共享模式,包括:全局共享、指定共享 (仅共享给指定项目/账户) 、不共享
支持为模型绑定默认推理模板,其中,系统模型由系统自动绑定,自定义模型由用户自行绑定
支持推理兼容性评估,预填模型部署方案,智能评估该方案是否与当前模型兼容,提高模型部署成功率
支持下载查看模型文件
数据集 支持集中存储、管理系统数据集和自定义数据集
系统数据集由系统预置,包括多款开源数据集,例如:MMLU、CMNLI、CMRC、HumanEval、OpenQA等
自定义数据集由用户自行上传,支持通过本地文件、URL上传,或从Hugging Face导入
上传数据集支持断点续传,上传任务手动或因系统异常自动暂停后,已上传数据可保留 24 小时,期间可手动继续本任务
支持手动取消数据集上传任务
支持自定数据集的添加、删除等基本生命周期管理
支持编辑自定义数据集名称、简介
支持为自定义数据集设置共享模式,包括:全局共享、指定共享 (仅共享给指定项目/账户) 、不共享
支持标记数据集使用场景并按使用场景筛选,包括用于模型精调、模型能力评测、服务性能评测。其中,系统数据集由系统自动标记,自定义数据集由用户自行标记
模型精调 支持创建精调工作台,对模型进行 LoRA 、Freeze 、全参数调优训练
支持指定精调工作台所在项目,指定后,仅该项目下的成员可查看和使用本精调工作台
支持精调工作台的创建、删除等基本生命周期管理
支持查看精调日志实时日志和 Loss 指标
支持导出精调后的模型,并添加到模型仓库使用
支持查看模型导出记录
推理服务 支持基于模型和推理模板部署推理服务,生成服务API。推理服务可运行在云主机或容器中
支持单机多卡、多机多卡等多种推理模式。实际场景下可用的推理模式和部署模式 (基于云主机部署或基于容器部署) 及GPU型号相关
支持为推理服务设置环境变量,灵活调整服务运行行为
支持为推理服务设置启动变量,在服务启动时进行特殊配置传递
支持指定推理服务所在项目,指定后,仅该项目下的成员可查看和使用本推理服务
支持推理服务的创建、修改、删除等基本生命周期管理
支持通过 Notebook 工具查看服务文件目录并实时调试服务代码
支持一键跳转体验已部署服务
支持查看推理服务日志
支持可视化查看推理服务监控信息,包括:请求时长、请求次数、请求失败数等
推理模板 支持集中存储、管理系统推理模板和自定义推理模板
系统推理模板由系统预置,对应多种推理框架,包括:Transformers、llama、vLLM、Diffuser、Sentence Transformer、MindIE、SGLang等
自定义模板由用户自行上传,支持通过本地文件上传,或从 Hugging Face 导入
支持为推理模板添加环境变量,灵活调整推理框架参数
支持自定义推理模板的添加、修改、删除等基本生命周期管理
支持为自定义推理模板设置共享模型,包括:全局共享、指定共享 (仅共享给指定项目/账户) 、不共享
支持为推理模板绑定默认应用模型,使用这些模型创建推理服务时,将默认使用该模板
支持标记推理模板的推理框架并按框架进行模板筛选。其中,系统模板由系统自动标记,自定义模板由用户自行标记
支持克隆推理模板。在已有模板的基础上快速修改配置参数,生成满足特定需求的新模板
支持下载查看推理代码
服务评测 支持两种服务评测类型:服务性能评测、模型能力评测
服务性能评测用于测试服务运行稳定性和效率,关注测试耗时、总请求数、并发请求数、成功请求数、延迟、吞吐量等指标
支持服务性能评测任务的创建、删除等基本生命周期管理
支持对本平台内部署的推理服务进行性能评测,也可以通过服务API对本平台外的服务进行性能评测
支持查看服务性能评测报告,包括各性能指标详细数据、百分位数据、可视化变化趋势
针对已完成的服务性能评测,支持下载查看评测报告和评测日志
模型能力评测用于评估模型推理能力是否达到预期,关注模型的预测准确性、泛化能力和学习能力
支持模型能力评测任务的创建、删除等基本生命周期管理
针对已完成的模型能力评测,支持下载查看评测报告和评测日志
应用开发服务 支持基于系统提供的应用开发服务包,在本平台快捷部署开源应用开发服务
支持应用开发服务的部署、删除等基本生命周期管理
支持 Dify、FastGPT、ComfyUI、MaxKB 等应用开发服务
支持项目隔离,每个项目可部署自己的 Dify、FastGPT、ComfyUI、MaxKB 应用,独立管理
支持从本平台一键跳转已部署的应用开发服务,进行RAG应用、工作流编排等开发工作
支持在应用开发服务中接入本平台内的推理服务 API 和本平台外的推理 API
支持在应用开发服务中创建知识库,支持 Word、PDF、PPT、Excel 等多种文档格式采编
支持在应用开发服务中创建多个工作台并自定义工作流,基于推理 API 和知识库实现对话应用
资源统计 支持集中统计本平台资源占用情况
支持查看本平台中各类服务总数,包括:推理服务、服务评测、模型精调、应用服务
支持查看本平台中各类资源占用的存储容量,包括:模型文件、推理模板、数据集、临时缓存
支持查看本平台使用的 GPU 算力统计,包括占用的 GPU 设备总数和显存总数
支持查看运行推理服务、评测任务、精调任务、应用服务的云主机实例及详细信息
支持查看运行推理服务、精调任务的容器实例及详细信息
模型平台配置 支持配置模型平台管理服务,包括管理服务器 IP、端口等
支持为模型平台配置代理服务,允许访问外网平台
支持配置模型平台数据存储服务,用于存放模型文件等冷数据。支持对接 NFS 或 S3 存储
提供分布式元数据存储系统 (ZDFS) , 支持三副本高可用部署
ZDFS 为推理服务提供多层缓存加速,提升模型读速度
支持为云主机服务配置默认服务网络、存储网络
支持为容器服务配置默认镜像仓库、服务网络、存储网络
支持实时监控平台管理服务、存储服务状态
许可证管理 / 提供多种授权协议,控制实际可用的功能范围,用户可按需购买
按大类划分,支持许可证类型:平台许可证 (Base License) 、模块许可证 (Plus License)
平台许可证提供平台基本功能,支持以下版本:智算版
模块许可证提供附加功能或功能强化,支持以下类型:容器管理-CPU、容器管理-vCPU、AI模型平台-基础服务、AI模型平台-GPU
模块许可证需在平台许可证基础上使用,不可单独使用
支持授权方式:本地授权、服务器授权
对于本地授权,支持通过USB Key或请求码进行授权导入和授权更新
对于服务器授权,支持通过AccessKey连接授权服务器,使用授权服务器上的许可额度
对于本地授权的环境,支持开启共享授权,升级为授权服务器,向其他环境共享许可额度
支持集中查看当前许可证以及历史授权记录
支持将已添加的模块许可证按需删除
支持许可证异常提醒 (许可证即将过期、许可证已过期、许可证授权配额不足)
审计 / 支持对本平台的所有操作行为审计,有效保障平台环境安全
监控报警 / 默认监控AI模型平台管理服务、存储服务、元数据存储服务状态和使用情况,检测到服务异常或达到报警阈值时,将发送报警消息
支持为推理服务创建自定义报警器,监控推理服务状态,检测到推理服务状态未知时,将发送报警消息