ZStack Logo

ZStack AIOS

模型平台配置

AIOS 用户侧功能说明,覆盖 GPU、模型仓库、推理服务和场景实践。

ZStack AIOS主菜单,点击AI模型平台 > 统计和管理 > 模型平台配置,进入模型平台配置界面。

图1所示:


图1 模型平台配置

查看模型平台配置

支持在模型平台配置界面查看平台当前配置和平台服务监控:
  • 管理服务:
    • 支持查看管理服务器IP地址、管理服务端口、管理服务UUID、代理服务配置
    • 支持查看管理服务、文件浏览服务、代理服务状态
  • 存储服务:
    • 存储服务:用于存储模型文件、数据集、推理模板、日志文件、配置文件等模型平台实体数据
      • 支持查看存储协议类型、存储地址
      • 支持查看存储服务状态、已用存储容量
    • 元数据存储服务:用于存储模型平台元数据
      • 支持查看元数据存储地址、哨兵数量、存储集群健康状态
      • 支持查看各元数据存储服务器详细信息,包括角色、IP地址、内存容量、数据同步状态、运行状态等
  • 资源配置:
    • 支持查看使用云主机部署服务时的默认配置,包括:云主机默认服务网络、默认存储网络
    • 支持查看使用容器部署服务时的默认配置,包括:容器默认服务网络、默认存储网络、默认镜像仓库

模型平台监控报警

ZStack AIOS提供以下报警器,监测到平台服务异常或超过指定阈值时会发送报警通知:
报警条目 类型 描述
AI模型平台管理服务状态异常 默认事件报警器
  • 监控AI模型平台管理服务状态
  • 监测到管理服务状态异常时,将发送报警通知
  • 管理服务状态异常时,将无法上传数据或创建服务
AI模型平台存储服务状态异常 默认事件报警器
  • 监控AI模型平台存储服务状态
  • 监测到存储服务状态异常时,将发送报警通知
  • 存储服务状态异常将导致平台上的服务和功能无法正常使用
AI模型平台元数据存储服务健康状态异常 默认事件报警器
  • 监控AI模型平台元数据存储服务健康状态
  • 监测到元数据存储服务处于非健康状态时,将发送报警通知
  • 元数据存储服务健康状态异常时,将无法上传数据或创建服务
AI模型平台缓存目录可用容量百分比 默认资源报警器
  • 监控AI模型平台缓存目录使用情况
  • 监测到缓存目录可用容量容量百分比<10%,并持续5分钟,将发送报警通知
  • 缓存目录占满后,将影响模型文件和其他数据下载
AI模型平台元数据存储服务可用内存百分比 默认资源报警器
  • 监控AI模型平台元数据存储服务内存使用情况
  • 监测到元数据存储服务可用内存百分比<10%,并持续5分钟,将发送报警通知
  • 无可用内存时,元数据存储服务无法正常使用
AI模型平台元数据存储服务可用连接数量百分比 默认资源报警器
  • 监控AI模型平台元数据存储服务可用连接数
  • 监测到元数据存储服务可用连接数百分比<10%,并持续5分钟,将发送报警通知
  • 元数据存储服务无可用连接数时,将影响新服务创建
KV Cache使用率 自定义资源报警器
  • 监控推理服务KV Cache使用情况
  • 监测到KV Cache使用率超过指定阈值,并持续指定时间,将发送报警通知
  • 仅支持指定推理服务,适用于vLLM后端
显存抢占次数 自定义资源报警器
  • 监控推理服务显存抢占次数
  • 监测到显存抢占次数超过指定阈值时,将发送报警通知
  • 仅支持指定推理服务,适用于vLLM后端
5xx失败率 自定义资源报警器
  • 监控推理服务5xx请求失败率
  • 监测到5xx失败率超过指定阈值,并持续指定时间,将发送报警通知
  • 支持全部推理服务或指定推理服务
4xx失败率 自定义资源报警器
  • 监控推理服务4xx请求失败率
  • 监测到4xx失败率超过指定阈值,并持续指定时间,将发送报警通知
  • 支持全部推理服务或指定推理服务
首Token延迟P95 自定义资源报警器
  • 监控推理服务首Token延迟P95
  • 监测到首Token延迟P95超过指定阈值,并持续指定时间,将发送报警通知
  • 仅支持指定推理服务,适用于vLLM或SGLang后端
每Token输出时间 自定义资源报警器
  • 监控推理服务每Token输出时间
  • 监测到每Token输出时间超过指定阈值,并持续指定时间,将发送报警通知
  • 仅支持指定推理服务,适用于vLLM或SGLang后端
AI模型平台推理服务状态变为未知 自定义事件报警器
  • 监控推理服务状态,支持自定义选择推理服务
  • 监测到推理服务状态变为未知时,将发送报警通知
说明:
  • 默认报警器触发报警时,默认发送系统通知到ZStack AIOS。用户也可进入平台运维 > 云平台监控 > 报警器界面,点击操作 > 添加通知对象,将报警消息发送到其他渠道。
  • 上表中默认资源报警器的报警阈值、持续时间为默认值,用户可进入对应报警器详情页修改。