使用ZStack Cloud需购买平台许可证和模块许可证。本章节涵盖ZStack Cloud完整功能范围,实际可用的功能请以购买的许可证为准。
| 类别 | 特性 | 描述 |
|---|---|---|
| GPU运维 | / | 使用GPU运维功能,需购买ZStack Cloud智算版平台许可证 |
| GPU设备批量管理 | 支持集中查看、管理当前平台内全部物理GPU/vGPU设备,包括物理机集群中的GPU、弹性裸金属集群中的GPU和容器集群中的GPU设备 | |
| 支持按所属集群、节点和实例快速定位GPU设备 | ||
| 物理机/弹性裸金属集群下,支持GPU设备的启用、停用等基本生命周期管理 | ||
| 物理机/弹性裸金属集群下,支持设置物理GPU/vGPU设备共享模式,包括:全局共享、指定共享 (仅共享给指定项目/账户) 、不共享 | ||
| 物理机/弹性裸金属集群下,支持物理GPU设备直接分配给云主机/弹性裸金属实例使用 | ||
| 物理机集群下,支持对物理GPU进行虚拟化切割,形成vGPU设备并分配给云主机使用 | ||
| 物理机集群下,支持将已虚拟化切割的物理GPU设备还原 | ||
| 容器集群下,支持将物理GPU设备分配给容器使用 | ||
| 支持编辑物理GPU设备名称 | ||
| GPU设备监控和报警 | 支持查看GPU设备厂商、型号、类型、规格等基础信息 | |
| 支持实时查看物理GPU设备工作状态、利用率、显存利用率、功耗、温度、风扇转速、PCIe Rx吞吐量、PCIe Tx吞吐量等监控信息 | ||
| 支持实时查看vGPU设备工作状态、利用率、显存利用率等监控信息 | ||
| 支持针对GPU设备状态、利用率、显存利用率、温度等监控项创建报警器,检测到异常时可及时发送报警通知 | ||
| 容器管理 | / | 使用容器管理功能,需购买ZStack Cloud智算版平台许可证和容器管理-CPU或容器管理-vCPU模块许可证 |
| 支持资源概览、容器编排、制品仓库、容器运维、DevOps、容器集群管理,和容器服务设置等丰富功能,并为AI模型平台提供容器引擎。详情可查看容器管理功能 | ||
| AI模型平台 | / | 使用AI模型平台功能,需购买ZStack Cloud智算版平台许可证和AI模型平台-基础服务、AI模型平台-GPU模块许可证 |
| 模型仓库 | 支持集中存储、管理系统模型和自定义模型 | |
| 系统模型由系统预置,包括多款开源模型,例如:Qwen、Stable diffusion、XTTS、Yolo等 | ||
| 自定义模型由用户自行上传,支持通过本地文件、URL上传,或从Hugging Face、Model Scope导入 | ||
| 上传模型支持断点续传,上传任务手动或因系统异常自动暂停后,已上传数据可保留 24 小时,期间可手动继续本任务 | ||
| 支持手动取消模型上传任务 | ||
| 支持自定义模型的添加、删除等基本生命周期管理 | ||
| 支持修改自定义模型名称、简介 | ||
| 支持为自定义模型设置共享模式,包括:全局共享、指定共享 (仅共享给指定项目/账户) 、不共享 | ||
| 支持为模型绑定默认推理模板,其中,系统模型由系统自动绑定,自定义模型由用户自行绑定 | ||
| 支持推理兼容性评估,预填模型部署方案,智能评估该方案是否与当前模型兼容,提高模型部署成功率 | ||
| 支持下载查看模型文件 | ||
| 数据集 | 支持集中存储、管理系统数据集和自定义数据集 | |
| 系统数据集由系统预置,包括多款开源数据集,例如:MMLU、CMNLI、CMRC、HumanEval、OpenQA等 | ||
| 自定义数据集由用户自行上传,支持通过本地文件、URL上传,或从Hugging Face导入 | ||
| 上传数据集支持断点续传,上传任务手动或因系统异常自动暂停后,已上传数据可保留 24 小时,期间可手动继续本任务 | ||
| 支持手动取消数据集上传任务 | ||
| 支持自定数据集的添加、删除等基本生命周期管理 | ||
| 支持编辑自定义数据集名称、简介 | ||
| 支持为自定义数据集设置共享模式,包括:全局共享、指定共享 (仅共享给指定项目/账户) 、不共享 | ||
| 支持标记数据集使用场景并按使用场景筛选,包括用于模型精调、模型能力评测、服务性能评测。其中,系统数据集由系统自动标记,自定义数据集由用户自行标记 | ||
| 模型精调 | 支持创建精调工作台,对模型进行 LoRA 、Freeze 、全参数调优训练 | |
| 支持指定精调工作台所在项目,指定后,仅该项目下的成员可查看和使用本精调工作台 | ||
| 支持精调工作台的创建、删除等基本生命周期管理 | ||
| 支持查看精调日志实时日志和 Loss 指标 | ||
| 支持导出精调后的模型,并添加到模型仓库使用 | ||
| 支持查看模型导出记录 | ||
| 推理服务 | 支持基于模型和推理模板部署推理服务,生成服务API。推理服务可运行在云主机或容器中 | |
| 支持单机多卡、多机多卡等多种推理模式。实际场景下可用的推理模式和部署模式 (基于云主机部署或基于容器部署) 及GPU型号相关 | ||
| 支持为推理服务设置环境变量,灵活调整服务运行行为 | ||
| 支持为推理服务设置启动变量,在服务启动时进行特殊配置传递 | ||
| 支持指定推理服务所在项目,指定后,仅该项目下的成员可查看和使用本推理服务 | ||
| 支持推理服务的创建、修改、删除等基本生命周期管理 | ||
| 支持通过 Notebook 工具查看服务文件目录并实时调试服务代码 | ||
| 支持一键跳转体验已部署服务 | ||
| 支持查看推理服务日志 | ||
| 支持可视化查看推理服务监控信息,包括:请求时长、请求次数、请求失败数等 | ||
| 推理模板 | 支持集中存储、管理系统推理模板和自定义推理模板 | |
| 系统推理模板由系统预置,对应多种推理框架,包括:Transformers、llama、vLLM、Diffuser、Sentence Transformer、MindIE、SGLang等 | ||
| 自定义模板由用户自行上传,支持通过本地文件上传,或从 Hugging Face 导入 | ||
| 支持为推理模板添加环境变量,灵活调整推理框架参数 | ||
| 支持自定义推理模板的添加、修改、删除等基本生命周期管理 | ||
| 支持为自定义推理模板设置共享模型,包括:全局共享、指定共享 (仅共享给指定项目/账户) 、不共享 | ||
| 支持为推理模板绑定默认应用模型,使用这些模型创建推理服务时,将默认使用该模板 | ||
| 支持标记推理模板的推理框架并按框架进行模板筛选。其中,系统模板由系统自动标记,自定义模板由用户自行标记 | ||
| 支持克隆推理模板。在已有模板的基础上快速修改配置参数,生成满足特定需求的新模板 | ||
| 支持下载查看推理代码 | ||
| 服务评测 | 支持两种服务评测类型:服务性能评测、模型能力评测 | |
| 服务性能评测用于测试服务运行稳定性和效率,关注测试耗时、总请求数、并发请求数、成功请求数、延迟、吞吐量等指标 | ||
| 支持服务性能评测任务的创建、删除等基本生命周期管理 | ||
| 支持对本平台内部署的推理服务进行性能评测,也可以通过服务API对本平台外的服务进行性能评测 | ||
| 支持查看服务性能评测报告,包括各性能指标详细数据、百分位数据、可视化变化趋势 | ||
| 针对已完成的服务性能评测,支持下载查看评测报告和评测日志 | ||
| 模型能力评测用于评估模型推理能力是否达到预期,关注模型的预测准确性、泛化能力和学习能力 | ||
| 支持模型能力评测任务的创建、删除等基本生命周期管理 | ||
| 针对已完成的模型能力评测,支持下载查看评测报告和评测日志 | ||
| 应用开发服务 | 支持基于系统提供的应用开发服务包,在本平台快捷部署开源应用开发服务 | |
| 支持应用开发服务的部署、删除等基本生命周期管理 | ||
| 支持 Dify、FastGPT、ComfyUI、MaxKB 等应用开发服务 | ||
| 支持项目隔离,每个项目可部署自己的 Dify、FastGPT、ComfyUI、MaxKB 应用,独立管理 | ||
| 支持从本平台一键跳转已部署的应用开发服务,进行RAG应用、工作流编排等开发工作 | ||
| 支持在应用开发服务中接入本平台内的推理服务 API 和本平台外的推理 API | ||
| 支持在应用开发服务中创建知识库,支持 Word、PDF、PPT、Excel 等多种文档格式采编 | ||
| 支持在应用开发服务中创建多个工作台并自定义工作流,基于推理 API 和知识库实现对话应用 | ||
| 资源统计 | 支持集中统计本平台资源占用情况 | |
| 支持查看本平台中各类服务总数,包括:推理服务、服务评测、模型精调、应用服务 | ||
| 支持查看本平台中各类资源占用的存储容量,包括:模型文件、推理模板、数据集、临时缓存 | ||
| 支持查看本平台使用的 GPU 算力统计,包括占用的 GPU 设备总数和显存总数 | ||
| 支持查看运行推理服务、评测任务、精调任务、应用服务的云主机实例及详细信息 | ||
| 支持查看运行推理服务、精调任务的容器实例及详细信息 | ||
| 模型平台配置 | 支持配置模型平台管理服务,包括管理服务器 IP、端口等 | |
| 支持为模型平台配置代理服务,允许访问外网平台 | ||
| 支持配置模型平台数据存储服务,用于存放模型文件等冷数据。支持对接 NFS 或 S3 存储 | ||
| 提供分布式元数据存储系统 (ZDFS) , 支持三副本高可用部署 | ||
| ZDFS 为推理服务提供多层缓存加速,提升模型读速度 | ||
| 支持为云主机服务配置默认服务网络、存储网络 | ||
| 支持为容器服务配置默认镜像仓库、服务网络、存储网络 | ||
| 支持实时监控平台管理服务、存储服务状态 | ||
| 许可证管理 | / | 提供多种授权协议,控制实际可用的功能范围,用户可按需购买 |
| 按大类划分,支持许可证类型:平台许可证 (Base License) 、模块许可证 (Plus License) | ||
| 平台许可证提供平台基本功能,支持以下版本:智算版 | ||
| 模块许可证提供附加功能或功能强化,支持以下类型:容器管理-CPU、容器管理-vCPU、AI模型平台-基础服务、AI模型平台-GPU | ||
| 模块许可证需在平台许可证基础上使用,不可单独使用 | ||
| 支持授权方式:本地授权、服务器授权 | ||
| 对于本地授权,支持通过USB Key或请求码进行授权导入和授权更新 | ||
| 对于服务器授权,支持通过AccessKey连接授权服务器,使用授权服务器上的许可额度 | ||
| 对于本地授权的环境,支持开启共享授权,升级为授权服务器,向其他环境共享许可额度 | ||
| 支持集中查看当前许可证以及历史授权记录 | ||
| 支持将已添加的模块许可证按需删除 | ||
| 支持许可证异常提醒 (许可证即将过期、许可证已过期、许可证授权配额不足) | ||
| 审计 | / | 支持对本平台的所有操作行为审计,有效保障平台环境安全 |
| 监控报警 | / | 默认监控AI模型平台管理服务、存储服务、元数据存储服务状态和使用情况,检测到服务异常或达到报警阈值时,将发送报警消息 |
| 支持为推理服务创建自定义报警器,监控推理服务状态,检测到推理服务状态未知时,将发送报警消息 |