在ZStack AIOS主菜单,点击,进入模型平台配置界面。
如图1所示:

图1 模型平台配置

查看模型平台配置
支持在模型平台配置界面查看平台当前配置和平台服务监控:
- 管理服务:
- 支持查看管理服务器IP地址、管理服务端口、管理服务UUID、代理服务配置
- 支持查看管理服务、文件浏览服务、代理服务状态
- 存储服务:
- 存储服务:用于存储模型文件、数据集、推理模板、日志文件、配置文件等模型平台实体数据
- 支持查看存储协议类型、存储地址
- 支持查看存储服务状态、已用存储容量
- 元数据存储服务:用于存储模型平台元数据
- 支持查看元数据存储地址、哨兵数量、存储集群健康状态
- 支持查看各元数据存储服务器详细信息,包括角色、IP地址、内存容量、数据同步状态、运行状态等
- 存储服务:用于存储模型文件、数据集、推理模板、日志文件、配置文件等模型平台实体数据
- 资源配置:
- 支持查看使用云主机部署服务时的默认配置,包括:云主机默认服务网络、默认存储网络
- 支持查看使用容器部署服务时的默认配置,包括:容器默认服务网络、默认存储网络、默认镜像仓库
模型平台监控报警
ZStack AIOS提供以下报警器,监测到平台服务异常或超过指定阈值时会发送报警通知:
| 报警条目 | 类型 | 描述 |
|---|---|---|
| AI模型平台管理服务状态异常 | 默认事件报警器 |
|
| AI模型平台存储服务状态异常 | 默认事件报警器 |
|
| AI模型平台元数据存储服务健康状态异常 | 默认事件报警器 |
|
| AI模型平台缓存目录可用容量百分比 | 默认资源报警器 |
|
| AI模型平台元数据存储服务可用内存百分比 | 默认资源报警器 |
|
| AI模型平台元数据存储服务可用连接数量百分比 | 默认资源报警器 |
|
| KV Cache使用率 | 自定义资源报警器 |
|
| 显存抢占次数 | 自定义资源报警器 |
|
| 5xx失败率 | 自定义资源报警器 |
|
| 4xx失败率 | 自定义资源报警器 |
|
| 首Token延迟P95 | 自定义资源报警器 |
|
| 每Token输出时间 | 自定义资源报警器 |
|
| AI模型平台推理服务状态变为未知 | 自定义事件报警器 |
|
说明:
- 默认报警器触发报警时,默认发送系统通知到ZStack AIOS。用户也可进入界面,点击,将报警消息发送到其他渠道。
- 上表中默认资源报警器的报警阈值、持续时间为默认值,用户可进入对应报警器详情页修改。