云平台监控

性能分析

性能分析:通过列表方式展示云平台核心资源的性能监控指标,提供外部和内部两种监控方式,支持按资源查看性能分析结果和自定义导出分析报表,方便用户掌控云平台性能状态,提高运维效率。

查看性能分析

ZStack Cube 旗舰版主菜单,点击平台运维 > 云平台监控 > 监控图表 > 性能分析,进入性能分析界面。

图 1所示:
图 1. 查看性能分析


性能分析界面由筛选器和分析报表两部分组成。
  • 筛选器:支持基础筛选和高级筛选。
    • 基础筛选:支持按资源类型、监控方式、时间范围进行筛选。
      • 资源类型:支持按需查看云主机、VPC路由器、物理机、镜像服务器、三层网络和虚拟IP的监控数据。
      • 监控方式:支持外部监控和内部监控两种方式。
        • 外部监控:由Libvirt从物理机处获取监控数据,包括:CPU、内存、磁盘I/O、网卡。
        • 内部监控:由agent直接获取云主机/VPC路由器内部监控数据并推送到物理机(需要预先安装agent),包括:CPU、内存、磁盘容量。
        Note: 对于内存数据而言,内部监控比外部监控拥有更好的准确性,推荐在监控内存数据时使用内部监控。
      • 时间范围:支持选择不同的时间跨度查看监控数据,可选的时间跨度包括15分钟、1小时、1周和自定义。
    • 高级筛选:支持按筛选条目、资源范围、所有者范围进一步细粒度筛选。
      • 筛选条目:支持根据监控指标与指标值(如:CPU使用率 >= 75%),将资源进行排序查看。
      • 资源范围:支持查看云平台全部资源的监控信息,或指定资源进行查看监控信息。
      • 所有者范围:针对云主机/VPC路由器/虚拟IP资源,支持查看云平台全部所有者的监控信息,或指定所有者进行查看监控信息。
  • 分析报表:根据筛选条件,生成对应的分析报表。
    • 支持根据资源名称或监控指标进行排序。
    • 支持以CSV格式导出全部或当前页面的报表信息。
    • 支持自定义每页展示的条目数量,默认每页展示10个条目。
    Note:
    • 云主机分析报表页面支持停止云主机操作。
    • 云主机分析报表支持根据云主机的启用状态进行筛选。
    • 云主机/VPC路由分析报表支持自定义展示列。
    • 导出云主机/VPC路由器分析报表时,支持自定义导出监控指标的平均值、最大值和最小值。
不同资源对应的监控指标说明如下:
资源类型 监控方式 监控指标 描述
云主机/VPC路由器 外部监控 默认IPv4地址 默认展示当前区域内所有云主机的默认IPv4地址
Note: VPC路由器暂不支持此项。
存储占用量 默认展示当前区域内所有云主机的云盘在主存储上占用的容量大小,包括根云盘和已加载的数据云盘。
Note: VPC路由器暂不支持此项。
云盘总容量 展示云主机云盘总容量,包括根云盘和已加载的数据云盘。
Note: VPC路由器暂不支持此项。
CPU使用率 默认展示当前区域内所有云主机/VPC路由器的CPU使用率(平均值)
Note: 如果存在多个CPU,CPU使用率可能会超过100%。
内存使用率 默认展示当前区域内所有云主机/VPC路由器的内存平均使用率(平均值)
磁盘读速度 默认展示当前区域内所有云主机/VPC路由器的磁盘读速度(平均值)
磁盘写速度 默认展示当前区域内所有云主机/VPC路由器的磁盘写速度(平均值)
网卡入速度 默认展示当前区域内所有云主机/VPC路由器的网卡入速度(平均值)
网卡出速度 默认展示当前区域内所有云主机/VPC路由器的网卡出速度(平均值)
磁盘读IOPS 默认展示当前区域内所有云主机/VPC路由器的磁盘读IOPS(平均值)
磁盘写IOPS 默认展示当前区域内所有云主机/VPC路由器的磁盘写IOPS(平均值)
网卡入包数 默认展示当前区域内所有云主机/VPC路由器的网卡入包数(平均值)
网卡出包数 默认展示当前区域内所有云主机/VPC路由器的网卡出包数(平均值)
网卡入错误速率 默认展示当前区域内所有云主机/VPC路由器的网卡入错误率(平均值)
网卡出错误速率 默认展示当前区域内所有云主机/VPC路由器的网卡出错误率(平均值)
内部监控 默认IPv4地址 默认展示当前区域内所有云主机的默认IPv4地址
Note: VPC路由器暂不支持此项。
存储占用量 默认展示当前区域内所有云主机的云盘在主存储上占用的容量大小,包括根云盘和已加载的数据云盘。
Note: VPC路由器暂不支持此项。
云盘总容量 展示云主机云盘总容量,包括根云盘和已加载的数据云盘。
Note: VPC路由器暂不支持此项。
CPU使用率 默认展示当前区域内所有云主机/VPC路由器的CPU使用率(平均值)
CPU系统进程使用率 默认展示当前区域内所有云主机/VPC路由器的CPU系统进程使用率(平均值)
CPU用户进程使用率 默认展示当前区域内所有云主机/VPC路由器的CPU用户进程使用率(平均值)
CPU等待占用率 默认展示当前区域内所有云主机/VPC路由器的CPU等待占用率(平均值)
CPU空闲率 默认展示当前区域内所有云主机/VPC路由器的CPU空闲率(平均值)
内存使用率 默认展示当前区域内所有云主机/VPC路由器的内存使用率(平均值)
内存空闲率 默认展示当前区域内所有云主机/VPC路由器的内存空闲率(平均值)
磁盘使用率 默认展示当前区域内所有云主机/VPC路由器的磁盘使用率(平均值)
磁盘空闲率 默认展示当前区域内所有云主机/VPC路由器的磁盘空闲率(平均值)
物理机 / 磁盘读IOPS 默认展示当前区域内所有物理机的磁盘读IOPS(平均值)
/ 磁盘写IOPS 默认展示当前区域内所有物理机的磁盘写IOPS(平均值)
/ 磁盘已用量百分比 默认展示当前区域内所有物理机的磁盘已用量百分比(平均值)
/ 磁盘用量 默认展示当前区域内所有物理机的磁盘用量(平均值)
/ 网卡入包速率 默认展示当前区域内所有物理机的网卡入包速率(平均值)
/ 网卡出包速率 默认展示当前区域内所有物理机的网卡出包速率(平均值)
/ 网卡入错误率 默认展示当前区域内所有物理机的网卡入错误率(平均值)
/ 网卡出错误率 默认展示当前区域内所有物理机的网卡出错误率(平均值)
/ CPU平均使用率 默认展示当前区域内所有物理机的CPU平均使用率(平均值)
/ 内存使用率 默认展示当前区域内所有物理机的内存使用率(平均值)
/ 磁盘读速度 默认展示当前区域内所有物理机的磁盘读速度(平均值)
/ 磁盘写速度 默认展示当前区域内所有物理机的磁盘写速度(平均值)
/ 网卡入速度 默认展示当前区域内所有物理机的网卡入速度(平均值)
/ 网卡出速度 默认展示当前区域内所有物理机的网卡出速度(平均值)
镜像服务器 / 镜像存储可用容量百分比 默认展示当前区域内所有镜像服务器的镜像存储可用容量百分比(平均值)
三层网络 / 已用IP数(IPv4) 默认展示当前区域内所有三层网络的已用IP数(IPv4)(平均值)
/ 已用IP百分比(IPv4) 默认展示当前区域内所有三层网络的已用IP百分比(IPv4)(平均值)
/ 可用IP数(IPv4) 默认展示当前区域内所有三层网络的可用IP数(IPv4)(平均值)
/ 可用IP百分比(IPv4) 默认展示当前区域内所有三层网络的可用IP百分比(IPv4)(平均值)
虚拟IP / 下行网络流量 默认展示当前区域内所有虚拟IP的下行网络流量(平均值)
/ 下行网络入包速率 默认展示当前区域内所有虚拟IP的下行网络入包速率(平均值)
/ 上行网络流量 默认展示当前区域内所有虚拟IP的上行网络流量(平均值)
/ 上行网络入包速率 默认展示当前区域内所有虚拟IP的上行网络入包速率(平均值)

自定义导出分析报表

可根据筛选条件导出相应资源的分析报表,支持导出报表全部信息或仅导出当前页面信息。其中云主机/VPC路由器支持自定义导出监控指标以及对应指标的平均值、最大值和最小值。

ZStack Cube 旗舰版主菜单,点击平台运维 > 云平台监控 > 监控图表 > 性能分析,进入性能分析界面。以云主机为例,在资源报表页面,点击导出CSV,选择当前页全部,进入自定义导出页面。

图 2所示:
图 2. 自定义导出当前页面


  • 自定义导出页面展示当前所选的资源、监控方式、时间范围以及该资源支持的所有监控指标。
  • 自定义导出页面默认勾选监控报表已有监控指标的平均值,同时支持去勾选或勾选其他监控指标的平均值、最大值、最小值。
  • 支持一键全选或清空所有监控指标的平均值、最大值、最小值。

容量管理

通过可视化方式展示云平台核心资源的容量信息,方便用户掌控云平台容量使用情况,提高运维效率。

支持对云平台核心资源物理容量信息进行直观展示,包括:以卡片形式展示各种核心资源详细物理容量信息,以及核心资源容量TOP 10,方便用户整体掌控当前云平台核心资源物理容量使用情况,提高运维效率。

查看容量管理

ZStack Cube 旗舰版主菜单,点击平台运维 > 云平台监控 > 监控图表 > 容量管理,进入容量管理界面。

图 1所示:
图 1. 容量管理


容量管理 | 概览

容量管理界面主要分为上下两个版块:
  • 上方版块:以卡片形式展示各种核心资源详细容量信息,包括:主存储、镜像服务器、管理节点、云主机、数据云盘、镜像、快照、计算节点。
  • 下方版块:对各种核心资源容量信息进行TOP 10排序,包括:物理机、主存储、镜像服务器、镜像、云主机、数据云盘、快照。
Note:
  • 本界面展示的资源容量信息均为资源的真实物理容量。
  • 本界面数据均为静态数据,每次刷新页面会获取最新数据。
  • 目前支持统计以下主存储类型:本地存储、SharedBlock、Ceph、Vhost、CBD。
  • 目前支持统计以下镜像服务器类型:镜像仓库、Ceph。

资源容量 | 卡片详情

支持以卡片形式展示各种核心资源详细容量信息,详情如下:
  • 主存储卡片:展示当前区域内主存储的容量使用详情。
    • 资源总览:展示当前区域内主存储的资源数量、已用容量和总容量,并以容量进度条直观展示主存储整体容量使用进度,不同颜色代表主存储内不同类型数据的容量占用,进度条下方标明剩余可用容量。
      • 资源数量:当前区域内所有主存储的总数量;
      • 已用容量:当前区域内所有主存储的已用容量之和;
      • 总容量:当前区域内所有主存储的总容量之和;
      • 剩余可用容量:当前区域内所有主存储的剩余可用容量之和。
    • 资源详情:展示主存储内不同类型数据的容量详情。
      数据类型 描述
      根云盘

      根云盘:云主机的系统云盘,用于支撑云主机的系统运行。

      根云盘容量:当前区域内所有根云盘的容量之和。

      数据云盘

      数据云盘:云主机使用的数据云盘,一般用于扩展的存储使用。

      数据云盘容量:当前区域内所有数据云盘的容量之和。

      镜像缓存

      镜像缓存:首次创建云主机/云盘时,会将镜像服务器中的镜像下载到主存储中作为镜像缓存。

      镜像缓存容量:当前区域内所有主存储中的镜像缓存容量之和。

      Trash

      Trash:跨主存储迁移云主机/云盘时,源主存储中残留的源文件。

      Trash容量:当前区域内所有主存储中的Trash容量之和。

      其它

      其它:主存储中存放的操作系统、日志和第三方软件等。

      其它容量:当前区域内所有主存储中的其它数据容量之和。

      Note: 不建议使用同一个物理磁盘部署多个本地存储,会导致主存储容量统计不准确。
  • 镜像服务器卡片:展示当前区域内镜像服务器的容量使用详情。
    • 资源总览:展示当前区域内镜像服务器的总数量、已用容量和总容量,并以容量进度条直观展示镜像服务器整体容量使用进度,不同颜色代表不同类型镜像服务器的容量占用,进度条下方标明剩余可用容量。
      • 资源数量:当前区域内所有镜像服务器的总数量;
      • 已用容量:当前区域内所有镜像服务器的已用容量之和;
      • 总容量:当前区域内所有镜像服务器的总容量之和;
      • 剩余可用容量:当前区域内所有镜像服务器的剩余可用容量之和。
    • 资源详情:展示不同类型镜像服务器内不同类型数据的容量详情。
      镜像服务器类型 数据类型 描述
      镜像仓库 镜像

      镜像:云主机或云盘所使用的镜像模板文件。

      镜像容量:当前区域内所有镜像仓库中的镜像容量之和。

      备份

      备份:将镜像仓库作为本地备份服务器时存储的备份文件。

      备份容量:当前区域内所有作为本地备份服务器的镜像仓库中的备份容量之和。

      Trash

      Trash:跨镜像仓库迁移镜像时,源镜像仓库中残留的源文件。

      Trash容量:当前区域内所有镜像仓库中的Trash容量之和。

      其它

      其它:镜像仓库中存放的操作系统、日志和第三方软件。

      其它容量:当前区域内所有镜像仓库中的其它数据容量之和。

      Ceph镜像服务器 镜像

      镜像:云主机或云盘所使用的镜像模板文件。

      镜像容量:当前区域内所有Ceph镜像服务器中的镜像容量之和。

      Trash

      Trash:跨Ceph镜像服务器迁移镜像时,源镜像服务器中残留的源文件。

      Trash容量:当前区域内所有Ceph镜像服务器中的Trash容量之和。

      其它

      其它:Ceph镜像服务器中存放的操作系统、日志和第三方软件等。

      其它容量:当前区域内所有Ceph镜像服务器中的其它数据容量之和。

  • 计算节点卡片:展示当前区域内计算节点的容量使用详情。
    • 云平台:当前区域内云平台系统文件占用所有计算节点磁盘的容量之和;
    • 其它:除云平台系统文件占用容量外,当前区域内所有计算节点磁盘的其它已用容量之和。
  • 云主机卡片:展示当前区域内云主机的容量使用详情。
    • 数量:当前区域内所有云主机的总数量;
    • 已用:当前区域内所有云主机根云盘的容量之和。
      Note: 根云盘容量统计数据仅包括云主机系统数据。
  • 数据云盘:展示当前区域内数据云盘的容量使用详情。
    • 数量:当前区域内所有数据云盘的总数量;
    • 已用:当前区域内所有数据云盘的容量之和。
  • 镜像:展示当前区域内镜像的容量使用详情。
    • 数量:当前区域内所有镜像的总数量;
    • 已用:当前区域内所有镜像的容量之和。
  • 快照:展示当前区域内快照的容量使用详情。
    • 数量:当前区域内所有快照的总数量;
      Note:
      • 快照数量统计数据包括:云主机快照、云盘快照;
      • 若存在快照组,将拆分为相应的云主机快照以及云主机加载的所有数据云盘快照分别统计数量。
    • 已用:当前区域内所有快照的容量之和。
      Note: 由于Ceph主存储上的快照不占用容量,相应快照容量不予统计。
  • 管理节点:展示当前云平台管理节点的容量使用详情。
    • 资源总览:展示当前云平台管理节点的已用容量和总容量,并以容量进度条直观展示管理节点整体容量使用进度,不同颜色代表管理节点内不同类型数据的容量占用,进度条下方标明剩余可用容量。
      • 单管理节点场景:
        • 已用容量:当前云平台管理节点的已用容量;
        • 总容量:当前云平台管理节点的总容量;
        • 剩余可用容量:当前云平台管理节点的剩余可用容量。
      • 双管理节点物理机高可用场景:
        • 已用容量:当前云平台所有管理节点的已用容量之和;
        • 总容量:当前云平台所有管理节点的总容量之和;
        • 剩余可用容量:当前云平台所有管理节点的剩余可用容量之和。
    • 资源详情:展示管理节点内不同类型数据的容量详情。
      数据类型 | 一级 数据类型 | 二级 描述
      云平台 管理节点日志

      管理节点日志:管理节点的操作日志文件。

      管理节点日志容量:
      • 单管理节点场景:

        当前云平台管理节点日志的容量。

      • 双管理节点物理机高可用场景:

        当前云平台所有管理节点日志的容量之和。

      数据库

      数据库:即管理节点数据库,用于存储和管理云平台所有的管理服务数据。

      数据库容量:
      • 单管理节点场景:

        当前云平台管理节点数据库占用的容量。

      • 双管理节点物理机高可用场景:

        当前云平台所有管理节点数据库占用的容量之和。

      数据库备份

      数据库备份:管理节点数据库的备份数据。

      数据库备份容量:
      • 单管理节点场景:

        当前云平台管理节点数据库备份占用的容量。

      • 双管理节点物理机高可用场景:

        当前云平台所有管理节点数据库备份占用的容量之和。

      监控

      监控:管理节点中存放的云平台监控数据和审计数据。

      监控容量:
      • 单管理节点场景:

        管理节点中存放的云平台监控数据和审计数据的容量。

      • 双管理节点物理机高可用场景:

        所有管理节点中存放的云平台监控数据和审计数据的容量之和。

      升级备份

      升级备份:云平台升级时,管理节点数据库和配置信息文件的备份数据。

      升级备份容量:
      • 单管理节点场景:

        当前云平台管理节点升级备份占用的容量。

      • 双管理节点物理机高可用场景:

        当前云平台所有管理节点升级备份占用的容量之和。

      其它 /

      其它:除云平台相关数据(管理节点日志、数据库、数据库备份、监控、升级备份)外,管理节点中存放的其它所有数据。

      其它容量:
      • 单管理节点场景:

        当前云平台管理节点中的其它数据容量。

      • 双管理节点物理机高可用场景:

        当前云平台所有管理节点中的其它数据容量之和。

管理节点监控

在多管理节点物理机高可用场景下,可直观查看每个管理节点的健康状态。

查看管理节点监控

ZStack Cube 旗舰版主菜单,点击平台运维 > 云平台监控 > 监控图表 > 管理节点监控,进入管理节点监控界面。

图 1所示:
图 1. 管理节点监控


管理节点监控支持显示多个管理节点的管理节点IP、节点状态、VIP和管理服务状态,主要包括以下几种管理服务:
  • 仲裁IP是否可达:

    监控用于判断主备管理节点的仲裁IP是否可达,若不可达可能导致管理节点高可用功能失效。

  • 对端管理节点是否可达:

    监控备管理节点是否可达,若备管理节点不可达,无法与备管理节点通信。

  • VIP是否可达:

    监控VIP是否可达,若VIP不可达,主管理节点不能通过VIP访问UI界面。

  • 数据库状态:

    监控数据库状态,若数据库异常,可能存在数据丢失风险,请及时恢复故障。

注意事项

  • 此页面包括:绿色、红色、灰色三种颜色。其中,绿色表示正常;其他颜色均表示异常。若出现异常状态,请及时查找原因解决问题。
  • 双管理节点采用主备模式,主管理节点只有一个。显示VIP的为主管理节点,未显示VIP的均为备管理节点。
  • 若所有备管理节点状态异常,主管理节点故障后,无法切换且管理节点宕机。因此,若发现存在管理节点异常,请及时处理。

监控报警

监控报警功能支持对时序化数据和事件进行监控,并通过通知服务(SNS)推送报警消息至指定的通知对象。支持资源报警器、事件报警器和扩展报警器三种报警器类型,支持系统/邮箱/钉钉/企业微信/飞书/Webhook/短信/Microsoft Teams/SNMP Trap接收端通知对象类型,部分资源报警器需安装agent才能使用。

监控报警功能示意图如图 1所示:
图 1. 监控报警功能


功能框架

  • 监控系统
    监控系统提供以下功能:
    • 时序化监控:目前支持监控两种时序化数据类型:
      • 资源负载数据:例如云主机CPU使用率、物理机内存使用率等;
      • 资源容量数据:例如可用IP数量、运行中云主机的总数量等。
    • 事件收集:收集云平台中发生的预定义事件,例如物理机失联,云主机高可用功能启动等。
    • 报警功能:对时序化数据或事件进行报警。
    • 审计功能:记录所有操作并提供搜索。
    • 自定义功能:用户可自定义设置报警器和消息模板,并支持使用预先配置的报警模板和资源分组。
      • 报警器:目前支持以下报警器类型:
        • 资源报警器:对时序化数据进行报警。例如:对云主机CPU使用率设置一个报警器,当某云主机CPU使用率连续5分钟超过80%,以邮件方式报警。
        • 事件报警器:对事件进行报警,又称为事件订阅。例如:订阅物理机失联事件,当某个物理机失联后,以钉钉方式报警。
        • 扩展报警器:接收来自消息源的报警消息。例如:存储池降级,当某个Ceph企业版的存储池降级后,在云平台以系统方式报警。
      • 消息模板:报警器或事件向SNS系统的主题发送消息时使用的文本模板。
        • 系统自带一个报警消息和恢复消息默认模板,若用户没有创建模板,系统将使用自带模板。
        • 用户可以创建多个消息模板,但只能指定一个为默认模板,发送消息时只会使用默认模板格式化信息。
        • 模板中可以通过${}引用报警器或事件提供的变量。
        • 目前消息模板支持邮箱/钉钉/企业微信/飞书/Webhook/Microsoft Teams/短信七种通知对象平台。使用消息模板,可将通知邮件、钉钉消息、企业微信消息、飞书消息、Webhook消息、Microsoft Teams消息或短信以统一格式发出。
      • 消息源:用于连接扩展消息源,接管扩展报警消息并结合报警器统一推送至各类通知对象。方便报警消息统一管理的同时提高运维效率,目前支持接管Ceph企业版的报警消息。
      • 报警模板:一组报警器规则的通用模板,关联资源分组后,将对组内资源创建相应的报警器进行监控。
      • 资源分组:按照业务对资源进行分组,关联报警模板后,报警规则将直接作用于组内全部资源。
  • 通知服务(SNS)

    通知服务将报警消息推送至通知对象,通知对象类型包括:系统/邮箱/钉钉/企业微信/飞书/Webhook/短信/Microsoft Teams/SNMP Trap接收端。

    通知对象设置:
    • 系统默认提供一个系统类型通知对象,若报警器绑定系统类型通知对象,UI界面右上角的最近消息按钮处会出现弹窗提醒。
    • 用户也可自行创建邮箱/钉钉/企业微信/飞书/Webhook/短信/Microsoft Teams/SNMP Trap接收端类型通知对象。

功能优势

ZStack Cube 旗舰版监控报警系统具有以下功能优势:
  • 提供丰富的报警监控条目,对云平台核心资源以及事件进行全面监控报警;
  • 支持系统/邮箱/钉钉/企业微信/飞书/Webhook/短信/Microsoft Teams/SNMP Trap接收端通知对象用于订阅主题,用户可根据实际情况选择合适的报警接收方式;
  • 一个报警器可同时对多个资源进行监控;
  • 邮箱、钉钉、企业微信、飞书、Webhook、短信和Microsoft Teams通知对象支持自定义报警消息模板,用户可按需设置报警消息模板,从报警消息中快速定位关键信息。
  • 支持创建一组报警器规则的通用模板,关联资源分组后,将对组内资源创建相应的报警器进行监控。

应用场景

监控报警功能对云平台核心资源以及事件进行监控,并设置报警接收机制。当核心资源出现异常,监控报警控工将按照报警级别发出实时响应,帮助运维人员快速定位解决问题。

全局设置

  • 监控数据在本地默认保留6个月,在基本设置中可自定义设置监控数据保留周期,设置方法如下:

    设置 > 全局设置 > 基本设置页面,可设置监控数据保留周期,默认为6,单位为月,可设置1到12之间的整数。

  • 监控数据在本地默认保留50GB,在基本设置中可自定义设置监控数据保留大小,设置方法如下:

    设置 > 全局设置 > 基本设置页面,可设置监控数据保留大小,默认为50GB,建议按需设置。

  • ZStack Cube 旗舰版支持接收扩展报警消息,需要在设置 > 全局设置 > 高级设置中开启扩展报警开关,才能使用扩展报警器功能。

报警器

创建报警器

ZStack Cube 旗舰版主菜单,点击平台运维 > 云平台监控 > 报警服务 > 报警器,进入报警器界面,点击创建报警器,弹出创建报警器界面。

创建报警器分为以下场景:
  • 创建资源报警器
  • 创建事件报警器
  • 创建扩展报警器

创建资源报警器

除了系统提供的默认资源报警器,用户可根据自己的需求自定义创建资源报警器。在资源报警器界面,点击创建资源报警器,弹出创建资源报警器界面。

可参考以下示例输入相应内容:
  • 名称:设置资源报警器名称
  • 简介:可选项,可留空不填
  • 资源类型:选择资源类型, 包括:云主机、裸金属主机、弹性裸金属实例、VPC路由器、镜像、镜像服务器、系统数据目录、物理机、三层网络、云盘、虚拟IP、主存储、监听器、管理节点、项目资源、CDP任务

    其中,项目资源需拥有租户管理模块许可证,CDP任务需拥有持续数据保护(CDP)模块许可证。

  • 报警条目:根据所选资源类型,按需选择报警条目
    Note:
    • 每种资源类型对应多种报警条目,可前往监控报警功能使用教程附录章节查看报警条目及其描述。
    • 某些报警条目选择后,可能需要继续填写其他参数信息,请按需设置;
    • 某些报警条目需要安装agent才能使用,请按需设置。agent安装方法请参考内部监控章节;
    • 对于内存数据而言,内部监控比外部监控拥有更好的准确性,推荐在监控内存数据时使用内部监控。
    • 核心资源可以从资源详情页入口创建资源报警器,如云主机、物理机、主存储等。
  • 报警范围:选择所选资源类型对应的资源,支持单选和批量选择
    • 对批量资源创建报警器,该报警器对其下挂载的批量资源进行监控,其中任一资源满足报警条件,即可触发报警。
    • 对单个资源创建报警器,该报警器对其下挂载的单个资源进行监控,该资源满足报警条件,即可触发报警。
      Note:
      • 支持对单个资源细粒度的监控报警;
      • 例如:支持对某一云主机的某一个CPU的使用率进行监控报警。
  • 报警器触发规则:选择报警判断类型并输入阈值和持续时间
  • 报警间隔:选择报警间隔类型
    • 仅一次
      • 该报警器下同一资源的一次性报警。
        例如:
        • 该报警器挂载多个资源(其中任一资源满足报警条件即可触发报警),其中某一资源触发一次报警后继续满足报警条件,该报警器将不再报警。

          若该报警器挂载单个资源(该资源满足报警条件即可触发报警),该资源触发一次报警后继续满足报警条件,该报警器将不再报警。

      • 通知对象(若指定)将收到一次性报警的报警消息,消息中心将显示一次性报警的消息记录。
      • 若该资源恢复正常后再次满足报警条件,该报警器将再次触发一次性报警。
    • 重复报警
      • 该报警器下同一资源的多次重复报警。
        例如:
        • 该报警器挂载多个资源(其中任一资源满足报警条件即可触发报警),其中某一资源触发一次报警后继续满足报警条件,该报警器将遵循指定的报警策略多次重复报警。

          该报警器挂载单个资源(该资源满足报警条件即可触发报警),该资源触发一次报警后继续满足报警条件,该报警器将遵循指定的报警策略多次重复报警。

      • 通知对象(若指定)将收到每次报警的报警消息,消息中心将显示每次报警的消息记录。
  • 报警级别:支持设置报警级别,包括:紧急、严重、提示,不同级别的报警器将会发出对应级别的报警消息
  • 报警恢复通知:可选项,若开启,当该报警器监控的任一资源从报警状态恢复,则会接收到一次恢复通知。恢复通知按照默认恢复消息模板发送,消息内容可在报警消息模板页面进行自定义设置
  • 通知对象:可选项,不填表示不指定通知对象;若填写,报警消息将会发送到指定的通知对象
    Note:
    • 支持添加多个通知对象。
    • 可选择系统默认的通知对象,也可用户自定义创建。
图 1所示:
图 1. 创建资源报警器


创建事件报警器

除了系统提供的默认事件报警器,用户可根据自己的需求自定义创建事件报警器。在事件报警器界面,点击创建事件报警器,弹出创建事件报警器界面。

可参考以下示例输入相应内容:
  • 资源类型:选择资源类型,包括:云主机、路由器、镜像服务器、管理节点、物理机、主存储、vCenter、备份任务、项目资源、CDP任务

    其中,项目资源需拥有租户管理模块许可证,CDP任务需拥有持续数据保护(CDP)模块许可证。

  • 报警条目:根据所选资源类型,按需选择报警条目
  • 报警级别:支持设置报警级别,包括:紧急、严重、提示,不同级别的报警器将会发出对应级别的报警消息
  • 通知对象:可选项,不填表示不指定通知对象;若填写,报警消息将会发送到指定的通知对象
    Note:
    • 支持添加多个通知对象。
    • 可选择系统默认的通知对象,也可用户自定义创建。
图 2所示:
图 2. 创建事件报警器


Note:
  • 事件报警器仅事件发生时触发一次,不支持设置重复报警。
  • 事件报警器监控的任一资源从报警状态恢复时,会发送一次报警恢复消息,用户可在报警消息模板中自定义恢复消息文本。
  • 若该事件恢复正常后再次满足报警条件,该报警器将再次触发一次性报警。

创建扩展报警器

需要在设置 > 平台设置 > 全局设置 > 高级设置中开启扩展报警开关全局设置,才能使用扩展报警器功能。
创建扩展报警器即可接收来自扩展的报警消息。在扩展报警器界面,点击创建扩展报警器,在弹出的创建扩展报警器界面,可参考以下示例输入相应内容:
  • 名称:设置扩展报警器的名称
  • 消息源:选择需要接收扩展消息的消息源
  • 通知对象:可选项,不填表示不指定通知对象;若填写,报警消息将会发送到指定的通知对象
    Note:
    • 支持添加多个通知对象。
    • 可选择系统默认的通知对象,也可用户自定义创建。
图 3所示:
图 3. 创建扩展报警器


管理报警器

ZStack Cube 旗舰版主菜单,点击平台运维 > 云平台监控 > 报警服务 > 报警器,进入报警器界面。

报警器支持以下操作:
操作 描述
创建资源报警器 创建一个新的资源报警器。
启用资源报警器 将停止状态的资源报警器启用。
停用资源报警器 将正在使用的资源报警器停用。
编辑资源报警器 修改资源报警器的名称和简介。
添加通知对象 给选中的资源报警器添加通知对象。
移除通知对象 将通知对象从资源报警器移除。
删除 删除一个资源报警器,删除报警器的同时将移除其上所有资源并不再报警,请谨慎操作。
操作 描述
创建事件报警器 创建一个新的事件报警器。
启用事件报警器 将停止状态的事件报警器启用。
停用事件报警器 将正在使用的事件报警器停用。
添加通知对象 给选中的事件报警器添加通知对象。
移除通知对象 将通知对象从事件报警器移除。
删除 删除一个事件报警器,删除报警器的同时将移除其上所有资源并不再报警,请谨慎操作。
操作 描述
创建扩展报警器 创建一个新的扩展报警器。
编辑扩展报警器 修改扩展报警器的名称和简介。
添加通知对象 给选中的扩展报警器添加通知对象。
移除通知对象 将通知对象从扩展报警器移除。
删除 删除一个扩展报警器,删除报警器后将不再接收扩展报警消息,请谨慎操作。

一键报警

将种类繁多的资源监控项进行归纳整合,用于快速建立各种资源的监控报警服务。

支持以下三种一键报警场景:
  • 物理机
  • 云主机
  • VPC路由器

物理机一键报警

开启后会根据设定CPU使用率、磁盘使用率、内存使用率相关报警规则触发报警,作用于全部物理机,包括以下条目:
  • 物理机平均CPU使用率 ≥ 80%, 持续5分钟
  • 物理机全部磁盘已使用容量百分比 ≥ 80%, 持续5分钟
  • 物理机内存使用百分比 ≥ 80%, 持续5分钟

云主机一键报警

开启后会根据设定CPU使用率、磁盘使用率、内存使用率相关报警规则触发报警,作用于全部云主机,包括以下条目:
  • 云主机全部磁盘已使用容量百分比(需安装agent) ≥ 80%, 持续5分钟
  • 云主机内存已用百分比(需安装agent) ≥ 80%, 持续5分钟
  • 云主机CPU平均使用率(需安装agent) ≥ 80%, 持续5分钟
  • 云主机平均CPU使用率 ≥ 80%, 持续5分钟
  • 云主机内存已用百分比 ≥ 80%, 持续5分钟

VPC路由器一键报警

开启后会根据设定CPU使用率、磁盘使用率、内存使用率相关报警规则触发报警,作用于全部VPC路由器,包括以下条目:
  • VPC路由器全部磁盘已使用容量百分比 ≥ 80%, 持续5分钟
  • VPC路由器平均CPU使用率 ≥ 80%, 持续5分钟
  • VPC路由器内存已用百分比 ≥ 80%, 持续5分钟

管理一键报警

ZStack Cube 旗舰版主菜单,点击平台运维 > 云平台监控 > 报警服务 > 一键报警,进入一键报警界面。

一键报警支持以下操作:
操作 描述
开启一键报警 开启所选资源一键报警功能,系统将自动创建相应报警器。
关闭一键报警 关闭所选资源一键报警功能,系统将自动删除相应报警器。
启用报警规则 将停用状态的报警规则启用。
停用报警规则 将启用状态的报警规则停用。
修改报警规则 修改报警器的报警规则。

报警模板

创建报警模板

ZStack Cube 旗舰版主菜单,点击平台运维 > 云平台监控 > 报警服务 > 报警模板,进入报警模板界面,点击创建报警模板,弹出创建报警模板界面。

可参考以下示例输入相应内容:
  • 名称:设置报警模板的名称
  • 简介:可选项,可留空不填
  • 资源类型:点击添加报警规则,可为报警模板添加对应的报警规则详细信息
    • 报警类型:可选择资源报警规则和事件报警规则
    • 资源类型:支持选择以下资源类型
      • 资源报警规则类型包括:云主机、裸金属主机、弹性裸金属实例、VPC路由器、镜像服务器、物理机、三层网络、虚拟IP、主存储、监听器、许可证。
      • 事件报警规则类型包括:云主机、VPC路由器、镜像服务器、物理机、主存储。
    • 添加规则:为所选资源设置相应的报警规则
图 1所示:
图 1. 创建报警模板


管理报警模板

ZStack Cube 旗舰版主菜单,点击平台运维 > 云平台监控 > 报警服务 > 报警模板,进入报警模板界面。

报警模板支持以下操作:
操作 描述
绑定标签 为报警模板绑定标签。
解绑标签 解绑报警模板上的标签。
设置共享 设置当前报警模板的共享模式。
克隆 基于当前报警模板,克隆完全相同的报警模板。
绑定资源分组 为当前报警模板绑定资源分组。
Note: 一个报警模板可以绑定多个资源分组。
解绑资源分组 解绑报警模板上的资源分组。
修改报警规则 修改报警模板中的报警规则。
同步规则到分组 修改报警规则后,将最新的报警规则应用到已绑定的资源分组并直接生效,资源分组上已有的报警规则将被覆盖。
删除 删除报警模板,将解除与资源分组的绑定关系,已生成的报警器不受影响。

资源分组

创建资源分组

ZStack Cube 旗舰版主菜单,点击平台运维 > 云平台监控 > 报警服务 > 资源分组,进入资源分组界面,点击创建资源分组,弹出创建资源分组界面。

可参考以下示例输入相应内容:
  • 名称:设置资源分组的名称
  • 简介:可选项,可留空不填
  • 资源:选择需要添加到资源分组中的资源
  • 规则模板:可选项,可为资源分组绑定一个规则模板,应用于组内全部资源,也可在创建完成后进行绑定
    Note: 一个资源分组只能关联一个规则模板。
  • 通知对象:可选项,不填表示不指定通知对象;若填写,报警消息将会发送到指定的通知对象
    Note:
    • 支持添加多个通知对象。
    • 可选择系统默认的通知对象,也可用户自定义创建。
图 1所示:
图 1. 创建资源分组


管理资源分组

ZStack Cube 旗舰版主菜单,点击平台运维 > 云平台监控 > 报警服务 > 资源分组,进入资源分组界面。

资源分组支持以下操作:
操作 描述
绑定标签 为资源分组绑定标签。
解绑标签 解绑资源分组上的标签。
设置规则模板 为当前资源分组绑定规则模板。
Note: 一个规则模板可以绑定多个资源分组。
同步报警模板规则 同步已绑定报警模板中的最新报警规则。
Note: 同步后,新规则将直接生效,并覆盖资源分组上的原有规则。
删除 删除资源分组,将同步删除组内资源关联的报警器,请谨慎操作。

消息模板

创建消息模板

ZStack Cube 旗舰版主菜单,点击平台运维 > 云平台监控 > 报警配置 > 消息模板,进入消息模板界面,点击创建消息模板,弹出创建消息模板界面。

创建邮箱消息模板

邮箱消息模板需遵循Text语法要求,可参考以下示例输入相应内容:
  • 名称:设置消息模板名称
  • 简介:可选项,可留空不填
  • 类型:选择邮箱
  • 报警类型:选择该模板适用的报警类型,包括资源报警事件报警
  • 报警消息标题:设置报警消息标题模板。系统提供模板示例,用户可参考此示例,填写所需的标题信息:
    • 资源报警-标题模板示例:
      报警器 ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR} ${ALARM_THRESHOLD} ${ALARM_CURRENT_STATUS}
    • 事件报警-标题模板示例:
      报警 ${EVENT_NAME} 发生了
  • 报警消息文本:设置报警消息内容模板。系统提供模板示例,示例包含了报警消息可展示的全部信息项,用户可参考示例按需填写:
    • 资源报警-文本模板示例:
      报警器 ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR} ${ALARM_THRESHOLD} ${ALARM_CURRENT_STATUS}
        
      报警器详情:
      UUID: ${ALARM_UUID}
      资源类型: ${ALARM_NAMESPACE}
      触发条件: ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR} ${ALARM_THRESHOLD}
      触发条件持续时间: ${ALARM_DURATION} seconds
      报警触发时间: ${ALARM_TIME}
      报警级别: ${ALARM_EMERGENCY_LEVEL}
      先前状态: ${ALARM_PREVIOUS_STATUS}
      当前值: ${ALARM_CURRENT_VALUE}
      标签: ${ALARM_LABELS.join(",")}
      报警资源IP: ${ALARM_RESOURCE_IP}
      所属集群UUID: ${ALARM_RESOURCE_CLUSTER_UUID}
      所属集群名称: ${ALARM_RESOURCE_CLUSTER_NAME}
    • 事件报警-文本模板示例:
      报警 ${EVENT_NAME} 发生了
        
      事件详情:
      名称: ${EVENT_NAME}
      资源类型: ${EVENT_NAMESPACE}
      报警级别: ${EVENT_EMERGENCY_LEVEL}
      资源UUID: ${EVENT_RESOURCE_ID}
      资源名称: ${EVENT_RESOURCE_NAME}
      报警触发时间: ${EVENT_TIME}
      事件订阅UUID: ${EVENT_SUBSCRIPTION_UUID}
      错误(如果没有错误时为空): ${EVENT_ERROR}
      报警资源IP: ${EVENT_RESOURCE_IP}
      所属集群UUID: ${EVENT_RESOURCE_CLUSTER_UUID}
      所属集群名称: ${EVENT_RESOURCE_CLUSTER_NAME}
  • 恢复消息标题:资源报警器在监控资源从报警状态恢复时,可向通知对象发送一次恢复通知。此项用于设置恢复消息的标题模板。系统提供模板示例,用户可参考此示例,填写所需的标题信息:
    报警器 ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR} ${ALARM_THRESHOLD} ${ALARM_CURRENT_STATUS}
  • 恢复消息文本:设置恢复消息的内容模板。系统提供模板示例,示例包含了恢复消息可展示的全部信息项,用户可参考示例按需填写:
    报警器 ${ALARM_NAME} ${TITLE_ALARM_RESOURCE_NAME}${ALARM_CURRENT_STATUS}
      
    报警恢复详情: 
    UUID: ${ALARM_UUID}
    资源类型: ${ALARM_NAMESPACE}
    恢复条件: ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR_REVERSE} ${ALARM_THRESHOLD}
    报警级别: ${ALARM_EMERGENCY_LEVEL}
    先前状态: ${ALARM_PREVIOUS_STATUS}
    当前值: ${ALARM_CURRENT_VALUE}
    报警资源UUID: ${ALARM_RESOURCE_ID}
    报警资源名称: ${ALARM_RESOURCE_NAME}
    报警资源IP: ${ALARM_RESOURCE_IP}
    所属集群UUID: ${ALARM_RESOURCE_CLUSTER_UUID}
    所属集群名称: ${ALARM_RESOURCE_CLUSTER_NAME}
  • 默认模板:选择是否将该模板设置为默认模板,设置后,所有邮件消息将按该模板格式发出
图 1所示:
图 1. 创建邮箱消息模板


创建阿里云短信消息模板

阿里云短信消息模板适用于阿里云短信通知对象。创建前,请在阿里云完成短信签名和短信模板申请。申请的短信模板请与ZStack Cube 旗舰版短信消息模板示例一致,如资源报警消息模板示例事件报警消息模板示例所示。

可参考以下示例输入相应内容:
  • 名称:设置消息模板名称
  • 简介:可选项,可留空不填
  • 类型:选择阿里云短信
  • 签名名称:输入在阿里云申请的短信签名名称
  • 资源报警-消息模板:设置资源报警消息模板,系统提供模板示例,用户可参考示例选择所需信息:
    报警器: ${ALARM_NAME},资源名称: ${ALARM_RESOURCE_NAME},触发条件: ${ALARM_CONDITION},报警级别: ${ALARM_EMERGENCY_LEVEL},当前值: ${ALARM_CURRENT_VALUE}
  • 资源报警-模板CODE:输入资源报警模板CODE
  • 事件报警-消息模板:设置事件报警消息模板,系统提供模板示例,用户可参考示例选择所需信息:
    事件名称: ${EVENT_NAME},资源名称: ${EVENT_RESOURCE_NAME},报警级别: ${EVENT_EMERGENCY_LEVEL},错误: ${EVENT_ERROR}
  • 事件报警-模板CODE:输入事件报警模板CODE
  • 默认模板:选择是否将该模板设置为默认模板,设置后,所有短信将按该模板格式发出
图 2所示:
图 2. 创建阿里云短信消息模板


创建通用短信消息模板

通用短信模板适用于除阿里云以外的其他短信通知对象,例如亿美软通短信通知对象。

可参考以下示例输入相应内容:
  • 名称:设置消息模板名称
  • 简介:可选项,可留空不填
  • 类型:选择通用短信
  • 报警类型:选择该模板适用的报警类型,包括资源报警事件报警
  • 资源报警-消息模板:设置资源报警消息模板,系统提供模板示例,用户可参考示例选择所需信息:
    报警器: ${ALARM_NAME},资源名称: ${ALARM_RESOURCE_NAME},报警级别: ${ALARM_EMERGENCY_LEVEL},当前值: ${ALARM_CURRENT_VALUE}
  • 事件报警-消息模板:设置事件报警消息模板,系统提供模板示例,用户可参考示例选择所需信息:
    事件名称: ${EVENT_NAME},资源名称: ${EVENT_RESOURCE_NAME},报警级别: ${EVENT_EMERGENCY_LEVEL},错误: ${EVENT_ERROR}
    Note: 基于合规性要求,填写时,请在提供的示例模板前添加一个【】字段,以确保短信正常发送。【】中可填写公司名称或其他自定义信息,例如:【CompanyName】
  • 默认模板:选择是否将该模板设置为默认模板,设置后,所有短信将按该模板格式发出
图 3所示:
图 3. 创建通用短信消息模板


创建钉钉消息模板

钉钉消息模板需遵循Markdown语法规则,可参考以下示例输入相应内容:
  • 名称:设置消息模板名称
  • 简介:可选项,可留空不填
  • 类型:选择钉钉
  • 报警类型:选择该模板适用的报警类型,包括资源报警事件报警
  • 报警消息标题:设置报警消息标题模板。系统提供模板示例,用户可参考此示例,填写所需的标题信息:
    • 资源报警-标题模板示例:
      报警器 ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR} ${ALARM_THRESHOLD} ${ALARM_CURRENT_STATUS}
    • 事件报警-标题模板示例:
      报警 ${EVENT_NAME} 发生了
  • 报警消息文本:设置报警消息内容模板。系统提供模板示例,示例包含了报警消息可展示的全部信息项,用户可参考示例按需填写:
    • 资源报警-文本模板示例:
      ## 报警器详情:
      - UUID: ${ALARM_UUID}
      - 资源类型: ${ALARM_NAMESPACE}
      - 触发条件: ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR} ${ALARM_THRESHOLD}
      - 触发条件持续时间: ${ALARM_DURATION} seconds
      - 报警触发时间: ${ALARM_TIME}
      - 报警级别: ${ALARM_EMERGENCY_LEVEL}
      - 先前状态: ${ALARM_PREVIOUS_STATUS}
      - 当前值: ${ALARM_CURRENT_VALUE}
      - 标签: ${ALARM_LABELS.join(",")}
      - 报警资源IP: ${ALARM_RESOURCE_IP}
      - 所属集群UUID: ${ALARM_RESOURCE_CLUSTER_UUID}
      - 所属集群名称: ${ALARM_RESOURCE_CLUSTER_NAME}
    • 事件报警-文本模板示例:
      ## 事件详情:
      - 名称: ${EVENT_NAME}
      - 资源类型: ${EVENT_NAMESPACE}
      - 报警级别: ${EVENT_EMERGENCY_LEVEL}
      - 资源UUID: ${EVENT_RESOURCE_ID}
      - 资源名称: ${EVENT_RESOURCE_NAME}
      - 报警触发时间: ${EVENT_TIME}
      - 事件订阅UUID: ${EVENT_SUBSCRIPTION_UUID}
      - 错误(如果没有错误时为空): ${EVENT_ERROR}
      - 报警资源IP: ${EVENT_RESOURCE_IP}
      - 所属集群UUID: ${EVENT_RESOURCE_CLUSTER_UUID}
      - 所属集群名称: ${EVENT_RESOURCE_CLUSTER_NAME}
  • 恢复消息标题:资源报警器在监控资源从报警状态恢复时,可向通知对象发送一次恢复通知。此项用于设置恢复消息的标题模板。系统提供模板示例,用户可参考此示例,填写所需的标题信息:
    报警器 ${ALARM_NAME} ${TITLE_ALARM_RESOURCE_NAME}${ALARM_CURRENT_STATUS}
  • 恢复消息文本:设置恢复消息的内容模板。系统提供模板示例,示例包含了恢复消息可展示的全部信息项,用户可参考示例按需填写:
    ## 报警恢复详情:
    - UUID: ${ALARM_UUID}
    - 资源类型: ${ALARM_NAMESPACE}
    - 恢复条件: ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR_REVERSE} ${ALARM_THRESHOLD}
    - 报警级别:${ALARM_EMERGENCY_LEVEL}
    - 先前状态:${ALARM_PREVIOUS_STATUS}
    - 当前值:${ALARM_CURRENT_VALUE}
    - 报警资源UUID:${ALARM_RESOURCE_ID}
    - 报警资源名称:${ALARM_RESOURCE_NAME}
    - 报警资源IP:${ALARM_RESOURCE_IP}
    - 所属集群UUID: ${ALARM_RESOURCE_CLUSTER_UUID}
    - 所属集群名称: ${ALARM_RESOURCE_CLUSTER_NAME}
  • 默认模板:选择是否将该模板设置为默认模板,设置后,所有钉钉消息将按该模板格式发出
图 4所示:
图 4. 创建钉钉消息模板


创建飞书消息模板

飞书消息模板需遵循Text语法规则,可参考以下示例输入相应内容:
  • 名称:设置消息模板名称
  • 简介:可选项,可留空不填
  • 类型:选择飞书
  • 报警类型:选择该模板适用的报警类型,包括资源报警事件报警
  • 报警消息标题:设置报警消息标题模板。系统提供模板示例,用户可参考此示例,填写所需的标题信息:
    • 资源报警-标题模板示例:
      报警器 ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR} ${ALARM_THRESHOLD} ${ALARM_CURRENT_STATUS}
    • 事件报警-标题模板示例:
      报警 ${EVENT_NAME} 发生了
  • 报警消息文本:设置报警消息内容模板。系统提供模板示例,示例包含了报警消息可展示的全部信息项,用户可参考示例按需填写:
    • 资源报警-文本模板示例:
      报警器详情:
      UUID: ${ALARM_UUID}
      资源类型: ${ALARM_NAMESPACE}
      触发条件: ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR} ${ALARM_THRESHOLD}
      触发条件持续时间: ${ALARM_DURATION} seconds
      报警触发时间: ${ALARM_TIME}
      报警级别: ${ALARM_EMERGENCY_LEVEL}
      先前状态: ${ALARM_PREVIOUS_STATUS}
      当前值: ${ALARM_CURRENT_VALUE}
      标签: ${ALARM_LABELS.join(",")}
      报警资源IP: ${ALARM_RESOURCE_IP}
      所属集群UUID: ${ALARM_RESOURCE_CLUSTER_UUID}
      所属集群名称: ${ALARM_RESOURCE_CLUSTER_NAME}
    • 事件报警-文本模板示例:
      事件详情:
      名称: ${EVENT_NAME}
      资源类型: ${EVENT_NAMESPACE}
      报警级别: ${EVENT_EMERGENCY_LEVEL}
      资源UUID: ${EVENT_RESOURCE_ID}
      资源名称: ${EVENT_RESOURCE_NAME}
      报警触发时间: ${EVENT_TIME}
      事件订阅UUID: ${EVENT_SUBSCRIPTION_UUID}
      错误(如果没有错误时为空): ${EVENT_ERROR}
      报警资源IP: ${EVENT_RESOURCE_IP}
      所属集群UUID: ${EVENT_RESOURCE_CLUSTER_UUID}
      所属集群名称: ${EVENT_RESOURCE_CLUSTER_NAME}
  • 恢复消息标题:资源报警器在监控资源从报警状态恢复时,可向通知对象发送一次恢复通知。此项用于设置恢复消息的标题模板。系统提供模板示例,用户可参考此示例,填写所需的标题信息:
    报警器 ${ALARM_NAME} ${TITLE_ALARM_RESOURCE_NAME}${ALARM_CURRENT_STATUS}
  • 恢复消息文本:设置恢复消息的内容模板。系统提供模板示例,示例包含了恢复消息可展示的全部信息项,用户可参考示例按需填写:
    报警恢复详情:
    UUID: ${ALARM_UUID}
    资源类型:  ${ALARM_NAMESPACE}
    恢复条件:  ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR_REVERSE} ${ALARM_THRESHOLD}
    报警级别: ${ALARM_EMERGENCY_LEVEL}
    先前状态: ${ALARM_PREVIOUS_STATUS}
    当前值: ${ALARM_CURRENT_VALUE}
    报警资源UUID: ${ALARM_RESOURCE_ID}
    报警资源名称: ${ALARM_RESOURCE_NAME}
    报警资源IP: ${ALARM_RESOURCE_IP}
    所属集群UUID: ${ALARM_RESOURCE_CLUSTER_UUID}
    所属集群名称: ${ALARM_RESOURCE_CLUSTER_NAME}
  • 默认模板:选择是否将该模板设置为默认模板,设置后,所有飞书消息将按该模板格式发出
图 5所示:
图 5. 创建飞书消息模板


创建企业微信消息模板

企业微信消息模板需遵循Markdown语法规则,可参考以下示例输入相应内容:
  • 名称:设置消息模板名称
  • 简介:可选项,可留空不填
  • 类型:选择企业微信
  • 报警类型:选择该模板适用的报警类型,包括资源报警事件报警
  • 报警消息标题:设置报警消息标题模板。系统提供模板示例,用户可参考此示例,填写所需的标题信息:
    • 资源报警-标题模板示例:
      报警器 ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR} ${ALARM_THRESHOLD} ${ALARM_CURRENT_STATUS}
    • 事件报警-标题模板示例:
      报警 ${EVENT_NAME} 发生了
  • 报警消息文本:设置报警消息内容模板。系统提供模板示例,示例包含了报警消息可展示的全部信息项,用户可参考示例按需填写:
    • 资源报警-文本模板示例:
      ## 报警器详情:
      - UUID: ${ALARM_UUID}
      - 资源类型: ${ALARM_NAMESPACE}
      - 触发条件: ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR} ${ALARM_THRESHOLD}
      - 触发条件持续时间: ${ALARM_DURATION} seconds
      - 报警触发时间: ${ALARM_TIME}
      - 报警级别: ${ALARM_EMERGENCY_LEVEL}
      - 先前状态: ${ALARM_PREVIOUS_STATUS}
      - 当前值: ${ALARM_CURRENT_VALUE}
      - 标签: ${ALARM_LABELS.join(",")}
      - 报警资源IP: ${ALARM_RESOURCE_IP}
      - 所属集群UUID: ${ALARM_RESOURCE_CLUSTER_UUID}
      - 所属集群名称: ${ALARM_RESOURCE_CLUSTER_NAME}
    • 事件报警-文本模板示例:
      ## 事件详情:
      - 名称: ${EVENT_NAME}
      - 资源类型: ${EVENT_NAMESPACE}
      - 报警级别: ${EVENT_EMERGENCY_LEVEL}
      - 资源UUID: ${EVENT_RESOURCE_ID}
      - 资源名称: ${EVENT_RESOURCE_NAME}
      - 报警触发时间: ${EVENT_TIME}
      - 事件订阅UUID: ${EVENT_SUBSCRIPTION_UUID}
      - 错误(如果没有错误时为空): ${EVENT_ERROR}
      - 报警资源IP: ${EVENT_RESOURCE_IP}
      - 所属集群UUID: ${EVENT_RESOURCE_CLUSTER_UUID}
      - 所属集群名称: ${EVENT_RESOURCE_CLUSTER_NAME}
  • 恢复消息标题:资源报警器在监控资源从报警状态恢复时,可向通知对象发送一次恢复通知。此项用于设置恢复消息的标题模板。系统提供模板示例,用户可参考此示例,填写所需的标题信息:
    报警器 ${ALARM_NAME} ${TITLE_ALARM_RESOURCE_NAME}${ALARM_CURRENT_STATUS}
  • 恢复消息文本:设置恢复消息的内容模板。系统提供模板示例,示例包含了恢复消息可展示的全部信息项,用户可参考示例按需填写:
    ## 报警恢复详情:
    - UUID: ${ALARM_UUID}
    - 资源类型: ${ALARM_NAMESPACE}
    - 恢复条件: ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR_REVERSE} ${ALARM_THRESHOLD}
    - 报警级别:${ALARM_EMERGENCY_LEVEL}
    - 先前状态:${ALARM_PREVIOUS_STATUS}
    - 当前值:${ALARM_CURRENT_VALUE}
    - 报警资源UUID:${ALARM_RESOURCE_ID}
    - 报警资源名称:${ALARM_RESOURCE_NAME}
    - 报警资源IP:${ALARM_RESOURCE_IP}
    - 所属集群UUID: ${ALARM_RESOURCE_CLUSTER_UUID}
    - 所属集群名称: ${ALARM_RESOURCE_CLUSTER_NAME}
  • 默认模板:选择是否将该模板设置为默认模板,设置后,所有企业微信消息将按该模板格式发出
图 6所示:
图 6. 创建企业微信消息模板


创建Webhook消息模板

Webhook消息模板需遵循JSON语法规则,可参考以下示例输入相应内容:
  • 名称:设置消息模板名称
  • 简介:可选项,可留空不填
  • 类型:选择Webhook
  • 报警类型:选择该模板适用的报警类型,包括资源报警事件报警
  • 报警消息标题:设置报警消息标题模板。系统提供模板示例,用户可参考此示例,填写所需的标题信息:
    • 资源报警-标题模板示例:
      报警器 ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR} ${ALARM_THRESHOLD} ${ALARM_CURRENT_STATUS}
    • 事件报警-标题模板示例:
      报警 ${EVENT_NAME} 发生了
  • 报警消息文本:设置报警消息内容模板。系统提供模板示例,示例包含了报警消息可展示的全部信息项,用户可参考示例按需填写:
    • 资源报警-文本模板示例:
      {
        "facts": [
          {
            "name": "报警器详情",
            "value": null
          },
          {
            "name": "UUID",
            "value": "${ALARM_UUID}"
          },
          {
            "name": "资源类型",
            "value": "${ALARM_NAMESPACE}"
          },
          {
            "name": "触发条件",
            "value": "${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR} ${ALARM_THRESHOLD}"
          },
          {
            "name": "触发条件持续时间",
            "value": "${ALARM_DURATION} seconds"
          },
          {
            "name": "先前状态",
            "value": "${ALARM_PREVIOUS_STATUS}"
          },
          {
            "name": "当前值",
            "value": "${ALARM_CURRENT_VALUE}"
          },
          {
            "name": "报警资源UUID",
            "value": "${ALARM_RESOURCE_ID}"
          },
          {
            "name": "报警触发时间",
            "value": "${ALARM_TIME}"
          },
          {
            "name": "报警资源名称",
            "value": "${ALARM_RESOURCE_NAME}"
          },
          {
            "name": "报警级别",
            "value": "${ALARM_EMERGENCY_LEVEL}"
          },
          {
            "name": "标签",
            "value": "${ALARM_LABELS.join(\",\")}"
          },
          {
            "name": "报警资源IP",
            "value": "${ALARM_RESOURCE_IP}"
          },
          {
            "name": "所属集群UUID",
            "value": "${ALARM_RESOURCE_CLUSTER_UUID}"
          },
          {
            "name": "所属集群名称",
            "value": "${ALARM_RESOURCE_CLUSTER_NAME}"
          }
        ]
      }
    • 事件报警-文本模板示例:
      {
        "facts": [
          {
            "name": "事件详情",
            "value": null
          },
          {
            "name": "名称",
            "value": "${EVENT_NAME}"
          },
          {
            "name": "资源类型",
            "value": "${EVENT_NAMESPACE}"
          },
          {
            "name": "报警级别",
            "value": "${EVENT_EMERGENCY_LEVEL}"
          },
          {
            "name": "报警资源UUID",
            "value": "${EVENT_RESOURCE_ID}"
          },
          {
            "name": "报警资源名称",
            "value": "${EVENT_RESOURCE_NAME}"
          },
          {
            "name": "报警触发时间",
            "value": "${EVENT_TIME}"
          },
          {
            "name": "事件订阅UUID",
            "value": "${EVENT_SUBSCRIPTION_UUID}"
          },
          {
            "name": "错误",
            "value": "${EVENT_ERROR}"
          },
          {
            "name": "报警资源IP",
            "value": "${EVENT_RESOURCE_IP}"
          },
          {
            "name": "所属集群UUID",
            "value": "${EVENT_RESOURCE_CLUSTER_UUID}"
          },
          {
            "name": "所属集群名称",
            "value": "${EVENT_RESOURCE_CLUSTER_NAME}"
          }
        ]
      }
  • 恢复消息标题:资源报警器在监控资源从报警状态恢复时,可向通知对象发送一次恢复通知。此项用于设置恢复消息的标题模板。系统提供模板示例,用户可参考此示例,填写所需的标题信息:
    报警器 ${ALARM_NAME} ${TITLE_ALARM_RESOURCE_NAME}${ALARM_CURRENT_STATUS}
  • 恢复消息文本:设置恢复消息的内容模板。系统提供模板示例,示例包含了恢复消息可展示的全部信息项,用户可参考示例按需填写:
    {
      "facts": [
        {
          "name": "报警恢复详情",
          "value": null
        },
        {
          "name": "UUID",
          "value": "${ALARM_UUID}"
        },
        {
          "name": "资源类型",
          "value": "${ALARM_NAMESPACE}"
        },
        {
          "name": "恢复条件",
          "value": "${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR_REVERSE} ${ALARM_THRESHOLD}"
        },
        {
          "name": "先前状态",
          "value": "${ALARM_PREVIOUS_STATUS}"
        },
        {
          "name": "当前值",
          "value": "${ALARM_CURRENT_VALUE}"
        },
        {
          "name": "报警资源UUID",
          "value": "${ALARM_RESOURCE_ID}"
        },
        {
          "name": "报警触发时间",
          "value": "${ALARM_TIME}"
        },
        {
          "name": "报警级别",
          "value": "${ALARM_EMERGENCY_LEVEL}"
        },
        {
          "name": "报警资源名称",
          "value": "${ALARM_RESOURCE_NAME}"
        },
        {
          "name": "报警资源IP",
          "value": "${ALARM_RESOURCE_IP}"
        },
        {
          "name": "所属集群UUID",
          "value": "${ALARM_RESOURCE_CLUSTER_UUID}"
        },
        {
          "name": "所属集群名称",
          "value": "${ALARM_RESOURCE_CLUSTER_NAME}"
        }
      ]
    }
  • 默认模板:选择是否将该模板设置为默认模板,设置后,所有HTTP消息将按该模板格式发出
图 7所示:
图 7. 创建Webhook消息模板


创建Microsoft Teams消息模板

Microsoft Teams消息模板需遵循Microsoft Teams官方Webhook语法规则,语法规则详情请参考Microsoft Teams官网。

可参考以下示例输入相应内容:
  • 名称:设置消息模板名称
  • 简介:可选项,可留空不填
  • 类型:选择Microsoft Teams
  • 报警类型:选择该模板适用的报警类型,包括资源报警事件报警
  • 报警消息文本:设置报警消息内容模板。系统提供模板示例,示例包含了报警消息可展示的全部信息项,用户可参考示例按需填写:
    • 资源报警-文本模板示例:
      {
        "activityTitle": "报警器 ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR} ${ALARM_THRESHOLD} ${ALARM_CURRENT_STATUS}",
        "facts": [
          {
            "name": "报警器详情",
            "value": null
          },
          {
            "name": "UUID",
            "value": "${ALARM_UUID}"
          },
          {
            "name": "资源类型",
            "value": "${ALARM_NAMESPACE}"
          },
          {
            "name": "触发条件",
            "value": "${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR} ${ALARM_THRESHOLD}"
          },
          {
            "name": "触发条件持续时间",
            "value": "${ALARM_DURATION} seconds"
          },
          {
            "name": "先前状态",
            "value": "${ALARM_PREVIOUS_STATUS}"
          },
          {
            "name": "当前值",
            "value": "${ALARM_CURRENT_VALUE}"
          },
          {
            "name": "报警资源UUID",
            "value": "${ALARM_RESOURCE_ID}"
          },
          {
            "name": "报警触发时间",
            "value": "${ALARM_TIME}"
          },
          {
            "name": "报警资源名称",
            "value": "${ALARM_RESOURCE_NAME}"
          },
          {
            "name": "报警级别",
            "value": "${ALARM_EMERGENCY_LEVEL}"
          },
          {
            "name": "标签",
            "value": "${ALARM_LABELS.join(\",\")}"
          },
          {
            "name": "报警资源IP",
            "value": "${ALARM_RESOURCE_IP}"
          },
          {
            "name": "所属集群UUID",
            "value": "${ALARM_RESOURCE_CLUSTER_UUID}"
          },
          {
            "name": "所属集群名称",
            "value": "${ALARM_RESOURCE_CLUSTER_NAME}"
          }
        ]
      }
    • 事件报警-文本模板示例:
      {
        "activityTitle": "报警 ${EVENT_NAME} 发生了",
        "facts": [
          {
            "name": "事件详情",
            "value": null
          },
          {
            "name": "名称",
            "value": "${EVENT_NAME}"
          },
          {
            "name": "资源类型",
            "value": "${EVENT_NAMESPACE}"
          },
          {
            "name": "报警级别",
            "value": "${EVENT_EMERGENCY_LEVEL}"
          },
          {
            "name": "报警资源UUID",
            "value": "${EVENT_RESOURCE_ID}"
          },
          {
            "name": "报警资源名称",
            "value": "${EVENT_RESOURCE_NAME}"
          },
          {
            "name": "报警触发时间",
            "value": "${EVENT_TIME}"
          },
          {
            "name": "事件订阅UUID",
            "value": "${EVENT_SUBSCRIPTION_UUID}"
          },
          {
            "name": "错误",
            "value": "${EVENT_ERROR}"
          },
          {
            "name": "报警资源IP",
            "value": "${EVENT_RESOURCE_IP}"
          },
          {
            "name": "所属集群UUID",
            "value": "${EVENT_RESOURCE_CLUSTER_UUID}"
          },
          {
            "name": "所属集群名称",
            "value": "${EVENT_RESOURCE_CLUSTER_NAME}"
          }
        ]
      }
  • 恢复消息文本:设置恢复消息的内容模板。系统提供模板示例,示例包含了恢复消息可展示的全部信息项,用户可参考示例按需填写:
    {
      "activityTitle": "报警器 ${ALARM_NAME} ${TITLE_ALARM_RESOURCE_NAME}${ALARM_CURRENT_STATUS}",
      "facts": [
        {
          "name": "报警恢复详情",
          "value": null
        },
        {
          "name": "UUID",
          "value": "${ALARM_UUID}"
        },
        {
          "name": "资源类型",
          "value": "${ALARM_NAMESPACE}"
        },
        {
          "name": "恢复条件",
          "value": "${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR_REVERSE} ${ALARM_THRESHOLD}"
        },
        {
          "name": "先前状态",
          "value": "${ALARM_PREVIOUS_STATUS}"
        },
        {
          "name": "当前值",
          "value": "${ALARM_CURRENT_VALUE}"
        },
        {
          "name": "报警资源UUID",
          "value": "${ALARM_RESOURCE_ID}"
        },
        {
          "name": "报警触发时间",
          "value": "${ALARM_TIME}"
        },
        {
          "name": "报警级别",
          "value": "${ALARM_EMERGENCY_LEVEL}"
        },
        {
          "name": "报警资源名称",
          "value": "${ALARM_RESOURCE_NAME}"
        },
        {
          "name": "报警资源IP",
          "value": "${ALARM_RESOURCE_IP}"
        },
        {
          "name": "所属集群UUID",
          "value": "${ALARM_RESOURCE_CLUSTER_UUID}"
        },
        {
          "name": "所属集群名称",
          "value": "${ALARM_RESOURCE_CLUSTER_NAME}"
        }
      ]
    }
  • 默认模板:选择是否将该模板设置为默认模板,设置后,所有Microsoft Teams消息将按该模板格式发出。
图 8所示:
图 8. 创建Microsoft Teams消息模板


管理消息模板

ZStack Cube 旗舰版主菜单,点击平台运维 > 云平台监控 > 报警配置 > 消息模板,进入消息模板界面。

消息模板支持以下操作:
操作 描述
创建消息模板 创建一个消息模板。
设置为默认 将选中的报警消息模板设置为系统默认模板。
取消默认 将已设置为系统默认的消息模板取消默认设置。
删除 删除当前消息模板。

消息源

创建消息源

需要在设置 > 全局设置 > 高级设置中开启扩展报警开关,才能使用消息源功能。

ZStack Cube 旗舰版主菜单,点击平台运维 > 云平台监控 > 报警配置 > 消息源,进入消息源界面,点击创建消息源,弹出创建消息源界面。

可参考以下示例输入相应内容:
  • 名称:设置消息源名称
  • 简介:可选项,可留空不填
  • 产品类别:选择接收报警消息的产品类别,目前支持Ceph企业版、Ceph专业版、ZStone
  • 登录地址及token:需填写正确的对应产品访问地址,并从对应产品页面获取对应的token信息
    • Ceph企业版/ZStone输入格式为:http://{产品平台ip地址}:{端口号}/v1/alerts/?token={访问令牌}
    • Ceph专业版输入格式为:http://{产品平台ip地址}:{端口号}/v1/alert-infos/?token={访问令牌}
  • 报警消息转换模板:用于将第三方报警消息转换为云平台的报警消息,系统已预置转换模板,用户可自定义其中的参数
    报警消息转换模板示例如下:
    {
        "product":"Ceph企业版",
        "service":"Ceph企业版",
        "message":"${resource_type + '[' + resource_name+'] ' + group + ' ' + alert_value}",
        "metric":"${resource_type + '::' + group}",
        "alertLevel":"${level == 'info' ? 'Normal' : level == 'warning' ? 'Important' : 'Emergent'}",
        "alertTime":"${create}",
        "dimensions":"{'resource_name':'${resource_name}'}",
        "dataSource":"Ceph企业版"
    } 

管理消息源

ZStack Cube 旗舰版主菜单,点击平台运维 > 云平台监控 > 报警配置 > 消息源,进入消息源界面。

消息源支持以下操作:
操作 描述
启用消息源 启用当前消息源,可以通过配置扩展报警器来接收消息。
停用消息源 停用当前消息源,使用该消息源的扩展报警器将无法接收消息。
删除 删除当前消息源。

通知对象

创建通知对象

ZStack Cube 旗舰版主菜单,点击平台运维 > 云平台监控 > 报警配置 > 通知对象,进入通知对象界面,点击创建通知对象,弹出创建通知对象界面。

创建邮箱类型通知对象

  • 发送到主题的消息都会以邮件方式通过邮箱服务器发送到指定的邮箱地址。
  • 用户可提前创建消息模板,使通知邮件以统一格式发出;如不创建,通知邮件将按系统自带模板发出。
  • 请提前添加邮箱服务器,并确保邮箱服务器可用。
创建邮箱类型通知对象,请设置以下参数:
  • 名称:设置通知对象名称
  • 简介:可选项,可留空不填
  • 类型:选择邮箱
  • 邮箱地址:输入邮箱地址,最多支持添加100个
  • 邮箱服务器:输入已添加的邮箱服务器
  • 通知语言:设置消息的通知语言,包括中文简体、English

点击发送测试消息,发送成功后,点击确定,创建通知对象。

图 1所示:
图 1. 创建邮箱类型通知对象


创建钉钉类型通知对象

  • 发送到主题的消息都会以钉钉方式发送到指定的机器人地址。
    Note: 钉钉机器人每分钟最多可接收20条消息,如超过20条,将被限流10分钟,详情请参考钉钉官网。
  • 用户可提前创建报警消息模板,使钉钉消息以统一格式发出;如不创建,钉钉消息将按系统自带模板发出。
创建钉钉类型通知对象,请设置以下参数:
  • 名称:设置通知对象名称
  • 简介:可选项,可留空不填
  • 类型:选择钉钉
  • 地址:输入在钉钉平台生成的机器人Webhook地址
  • 提示群成员:设置通过机器人发送报警消息时,是否@群成员关注
    • 无:报警触发时,仅在群内发送报警消息,不@任何人关注。
    • @所有人:报警触发时,将在群内发送报警消息,并@所有人。
    • @指定成员:报警触发时,将在群内发送报警消息,并@指定成员关注。选择该项时,请设置:
      • 手机号码:填写需被@的用户手机号码
      • 备注:填写用户备注,便于后续管理被@的群成员名单
  • 安全设置:选择是否对钉钉机器人进行过安全设置,请按照以下说明填写:
    • 如未对机器人进行安全设置,请将此项标记为
    • 如为机器人设置IP地址 (段),请将此项标记为,并在钉钉平台上,将云平台管理节点IP、云平台VIP添加进机器人IP地址 (段)的白名单。
    • 如为机器人设置加签,请将此项标记为签名,并将签名密钥粘贴到下方密钥项。
    • 请不要为机器人设置自定义关键词
  • 通知语言:设置消息的通知语言,包括中文简体、English

点击发送测试消息,发送成功后,点击确定,创建通知对象。

图 2所示:
图 2. 创建钉钉类型通知对象


创建企业微信类型通知对象

  • 发送到主题的消息都会以微信方式发送到指定的企业微信机器人地址。
  • 用户可提前创建报警消息模板,使微信消息以统一格式发出;如不创建,微信消息将按系统自带模板发出。
创建企业微信类型通知对象,请设置以下参数:
  • 名称:设置通知对象名称
  • 简介:可选项,可留空不填
  • 类型:选择企业微信
  • 地址:输入在企业微信平台生成的机器人Webhook地址
  • 提示群成员:设置通过机器人发送报警消息时,是否@群成员关注
    • 无:报警触发时,仅在群内发送报警消息,不@任何人关注。
    • @所有人:报警触发时,将在群内发送报警消息,并@所有人。
    • @指定成员:报警出发时,将在群内发送报警消息,并@指定成员关注。选择该项时,请设置:
      • 用户ID:填写需被@的用户ID
      • 备注:填写用户备注,便于后续管理被@的群成员名单
  • 通知语言:设置报警消息通知语言,支持中文简体、English。默认与当前云平台语言一致

点击发送测试消息,发送成功后,点击确定,创建通知对象。

图 3所示:
图 3. 创建企业微信类型通知对象


创建飞书类型通知对象

  • 发送到主题的消息都会以飞书方式发送到指定的飞书机器人地址。
    Note: 飞书机器人每秒最多可接收5条消息,每分钟最多可接收100条消息,详情请参考飞书官网。
  • 用户可提前创建报警消息模板,使飞书消息以统一格式发出;如不创建,飞书消息将按系统自带模板发出。
创建飞书类型通知对象,请设置以下参数:
  • 名称:设置通知对象名称
  • 简介:可选项,可留空不填
  • 类型:选择飞书
  • 地址:输入在飞书平台生成的机器人Webhook地址
  • 提示群成员:设置通过机器人发送报警消息时,是否@群成员关注
    • 无:报警触发时,仅在群内发送报警消息,不@任何人关注。
    • @所有人:报警触发时,将在群内发送报警消息,并@所有人。
    • @指定成员:报警出发时,将在群内发送报警消息,并@指定成员关注。选择该项时,请设置:
      • 用户ID:填写需被@的用户ID
      • 备注:填写用户备注,便于后续管理被@的群成员名单
  • 安全设置:选择是否对飞书机器人进行过安全设置,请按照以下说明填写:
    • 如未对机器人进行安全设置,请将此项标记为
    • 如为机器人设置IP白名单,请将此项标记为,并在飞书平台上,将云平台管理节点IP、云平台VIP添加进机器人IP白名单。
    • 如为机器人设置签名校验,请将此项标记为签名,并将签名密钥粘贴到下方密钥项。
    • 请不要为机器人设置自定义关键词
  • 通知语言:设置报警消息通知语言,支持中文简体、English。默认与当前云平台语言一致

点击发送测试消息,发送成功后,点击确定,创建通知对象。

图 4所示:
图 4. 创建飞书类型通知对象


创建Webhook类型通知对象

  • 发送到主题的消息都会以HTTP POST方式发送到指定的Webhook地址。
  • 若指定的Webhook地址已设置了用户名和密码才可访问,需按实际情况填写用户名和密码。
  • 用户可提前创建报警消息模板,使Webhook消息以统一格式发出;如不创建,Webhook消息将按系统自带模板发出。
  • 名称:设置通知对象名称
  • 简介:可选项,可留空不填
  • 类型:选择Webhook
  • 地址:输入Webhook地址
  • 用户名:可选项,若指定的Webhook已设置用户名和密码才可访问,需按实填写用户名
  • 密码:可选项,需按实填写相应密码

点击发送测试消息,发送成功后,点击确定,创建通知对象。

图 5所示:
图 5. 创建Webhook类型通知对象


创建阿里云短信类型通知对象

  • 发送到主题的消息都会通过阿里云短信网关,以短信方式发送到指定的电话号码。
  • 用户需提前创建阿里云短信类型的消息模板并设为默认,以便报警消息按照消息模板发送。如未提前创建对应的消息模板并设为默认,短信报警消息将无法发送。
  • 名称:设置通知对象名称
  • 简介:可选项,可留空不填
  • 类型:选择短信
  • 短信网关服务商:选择阿里云
  • AccessKey:选择从阿里云申请的AccessKey
  • 手机号:输入接收短信的手机号码
图 6所示:
图 6. 创建阿里云短信类型通知对象


创建亿美软通短信类型通知对象

  • 发送到主题的消息都会通过亿美软通短信网关,以短信方式发送到指定的电话号码。
  • 用户需提前创建通用短信类型的消息模板并设为默认,以便报警消息按照消息模板发送。如未提前创建对应的消息模板并设为默认,短信报警消息将无法发送。
  • 名称:设置通知对象名称
  • 简介:可选项,可留空不填
  • 类型:选择短信
  • 短信网关服务商:选择亿美软通
  • AppId:输入从亿美软通申请的AppId
  • SecretKey:输入从亿美软通申请的SecretKey
  • RequestUrl:填写发送短信请求URL
  • 手机号:输入接收短信的手机号码
图 6所示:
图 7. 创建亿美软通短信类型通知对象


创建Microsoft Teams类型通知对象

  • 发送到主题的消息都会通过Webhook方式发送到指定的Microsoft Teams群组;
  • 用户可提前创建报警消息模板,使Microsoft Teams消息以统一格式发出;如不创建,Microsoft Teams消息将按系统自带模板发出。
  • 名称:设置通知对象名称
  • 简介:可选项,可留空不填
  • 类型:选择Microsoft Teams
  • 地址:输入在Microsoft Teams中获取到的Webhook地址
  • 通知语言:设置消息的通知语言,包括中文简体、English

点击发送测试消息,发送成功后,点击确定,创建通知对象。

图 8所示:
图 8. 创建Microsoft Teams类型通知对象


创建SNMP Trap接收端类型通知对象

  • 发送到主题的消息都会以Trap报文的方式发送到指定的SNMP Trap接收端;
  • 需提前开启SNMP管理,并添加SNMP Trap接收端。
可参考以下示例输入相应内容:
  • 名称:设置通知对象名称
  • 简介:可选项,可留空不填
  • 类型:选择SNMP Trap接收端
  • SNMP Trap接收端:选择已添加的SNMP Trap接收端

点击发送测试消息,发送成功后,点击确定,创建通知对象。

图 9所示:
图 9. 添加SNMP Trap接收端类型通知对象


管理通知对象

ZStack Cube 旗舰版主菜单,点击平台运维 > 云平台监控 > 报警配置 > 通知对象,进入通知对象界面。

通知对象支持以下操作:
操作 描述
启用通知对象 将已停用的通知对象启用。
停用通知对象 将正在使用的通知对象停用。
发送测试消息 向通知对象发送测试消息,测试报警消息能否被正常发送。
Note:
  • 仅钉钉、企业微信、飞书、Microsoft Teams、短信、邮箱、Webhook、SNMP Trap接收端类型的通知对象支持该操作。
  • 测试消息发送成功后,请到接收端查收,如接收端未收到测试消息,请检查接收端是否配置了权限或拦截策略:
    • 钉钉/企业微信/飞书:检查是否开启了群禁言或@群成员限制;检查安全设置是否填写正确。
    • 邮箱:检查是否开启了黑名单或垃圾邮件过滤功能。
    • 短信:检查是否开启了黑名单功能,或短信网关是否发生报错。
    • SNMP Trap接收端:检查服务器防火墙和iptables配置。
    • 用户可登录各接收端对应的平台官网,查看更多信息拦截原因。
添加报警器 向选中的通知对象中添加报警器。
移除报警器 将报警器从通知对象中移除。
修改通知对象配置 修改通知对象配置,例如:通知语言、地址、安全设置、提示群成员等;邮箱或SNMP Trap接收端类型的通知对象还支持更换邮箱服务器或SNMP Trap接收端服务器
Note: 执行以上配置修改,请进入通知对象详情页。
删除 删除一个通知对象。

报警条目总览

资源报警条目

默认报警条目

资源类型 默认报警器 报警条目 描述
云主机 云主机内存已用百分比 云主机内存已用百分比≥80%
  • 默认监控云平台所有云主机。
  • 任意云主机内存已用百分比大于等于80%,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
云主机平均CPU使用率 云主机平均CPU使用率≥80%
  • 默认监控云平台所有云主机。
  • 任意云主机平均CPU使用率大于等于80%,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
物理机 物理机根盘使用率报警器 物理机根盘使用率≥80%
  • 默认监控云平台所有物理机。
  • 任意物理机根盘使用率大于等于80%,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
CPU温度报警器 CPU温度≥80℃
  • 默认监控云平台所有物理机。
  • 任意物理机CPU温度大于等于80℃,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
SSD温度报警器 SSD温度≥80℃
  • 默认监控云平台所有物理机。
  • 任意物理机SSD温度大于等于80℃,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
SSD剩余寿命报警器 SSD剩余寿命≤10%
  • 默认监控云平台所有物理机。
  • 任意物理机SSD剩余寿命小于等于10%,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
物理机平均CPU使用率 物理机平均CPU使用率≥80%
  • 默认监控云平台所有物理机。
  • 任意物理机平均CPU使用率持续5分钟大于等于80%,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
物理机内存已用百分比 该物理机已用内存容量百分比≥80%
  • 默认监控云平台所有物理机。
  • 任意物理机内存已用百分比持续5分钟大于等于80%,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
镜像服务器 镜像服务器存储可用容量报警器 镜像存储可用容量百分比<20%
  • 默认监控云平台所有镜像服务器。
  • 任意镜像服务器可用容量百分比小于20%,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
主存储 主存储可用容量报警器 该主存储可用容量百分比<20%
  • 默认监控云平台所有主存储。
  • 任意主存储可用容量百分比小于20%,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
主存储可用物理容量报警器 该主存储可用物理容量百分比<20%
  • 默认监控云平台所有主存储。
  • 任意主存储可用物理容量百分比小于20%,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
管理节点 双管理节点数据库不同步报警器 双管理节点数据库不同步
  • 默认监控多管理节点环境数据库状态。
  • 若持续1小时检测到多管理节点数据库存在数据不同步,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
仲裁IP不可达报警器 仲裁IP不可达
  • 默认监控多管理节点环境仲裁IP状态。
  • 若持续10分钟检测到仲裁IP不可达,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
系统数据目录 系统数据目录磁盘容量报警器 管理节点数据目录磁盘占用率≥70%
  • 默认监控云平台所有数据目录磁盘容量。
  • 任意管理节点数据目录磁盘占用率大于等于70%,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
许可证 许可证过期时间报警器 默认许可证过期时间≤15天
  • 默认监控云平台许可证、模块许可证和分布式存储许可证。
  • 任意许可证过期时间小于等于15天,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
CDP任务(需拥有持续数据保护CDP模块许可证) CDP任务已用容量报警器 CDP任务已用容量占规划容量百分比>80%
  • 默认监控云平台内所有CDP任务已用容量占规划容量的百分比。
  • 任一CDP任务的已用容量与规划容量的占比超过80%即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
CDP任务RPO偏移报警器 RPO偏移时间>5分钟
  • 默认监控云平台内所有CDP任务的RPO偏移情况。
  • 任一CDP任务的RPO偏移时间超过5分钟即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。

自定义报警条目

资源类型 子类型 报警条目 描述
云主机 CPU CPU使用率 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选云主机的CPU使用率,任一云主机的任一CPU使用率达到报警条件即可触发报警。
  • 指定配置:监控某个云主机指定CPU的使用率,达到报警条件即可触发报警。
CPU空闲率 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选云主机的CPU空闲率,任一云主机的任一CPU空闲率达到报警条件即可触发报警。
  • 指定配置:监控某个云主机指定CPU的空闲率,达到报警条件即可触发报警。
平均CPU使用率 批量监控多个云主机的平均CPU使用率,任一云主机的平均CPU使用率达到报警条件即可触发报警。
全部CPU使用率 批量监控多个云主机的CPU使用率,任一云主机的全部CPU使用率之和达到报警条件即可触发报警。
Note: 百分比之和,可能大于100%。
全部CPU空闲率 批量监控多个云主机的CPU空闲率,任一云主机的全部CPU空闲率之和达到报警条件即可触发报警。
Note: 百分比之和,可能大于100%。
CPU使用率(需安装agent) 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选云主机的CPU使用率,任一云主机的任一CPU使用率达到报警条件即可触发报警。
  • 指定配置:监控某个云主机指定CPU的使用率,达到报警条件即可触发报警。
磁盘 磁盘读IOPS 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选云主机的所有磁盘读IOPS,任一云主机的任一磁盘读IOPS达到报警条件即可触发报警。
  • 指定配置:监控某个云主机指定磁盘的读IOPS,达到报警条件即可触发报警。
全部磁盘读IOPS 批量监控多个云主机的磁盘读IOPS,任一云主机所有磁盘的读IOPS之和达到报警条件即可触发报警。
磁盘写IOPS 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选云主机的所有磁盘写IOPS,任一云主机的任一磁盘写IOPS达到报警条件即可触发报警。
  • 指定配置:监控某个云主机指定磁盘的写IOPS,达到报警条件即可触发报警。
全部磁盘写IOPS 批量监控多个云主机的磁盘写IOPS,任一云主机所有磁盘的写IOPS之和达到报警条件即可触发报警。
磁盘读速度 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选云主机的所有磁盘读速度,任一云主机的任一磁盘读速度达到报警条件即可触发报警。
  • 指定配置:监控某个云主机指定磁盘的读速度,达到报警条件即可触发报警。
全部磁盘读速度 批量监控多个云主机的磁盘读速度,任一云主机所有磁盘的读速度之和达到报警条件即可触发报警。
磁盘写速度 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选云主机的所有磁盘写速度,任一云主机的任一磁盘写速度达到报警条件即可触发报警。
  • 指定配置:监控某个云主机指定磁盘的写速度,达到报警条件即可触发报警。
全部磁盘写速度 批量监控多个云主机的磁盘写速度,任一云主机所有磁盘的写速度之和达到报警条件即可触发报警。
全部磁盘剩余容量(需安装agent) 批量监控多个云主机的磁盘剩余容量,任一云主机所有磁盘的剩余容量之和达到报警条件即可触发报警。
全部磁盘剩余容量百分比(需安装agent) 批量监控多个云主机的磁盘剩余容量百分比,任一云主机全部磁盘剩余容量百分比(百分比=所有磁盘剩余容量之和/所有磁盘容量之和)达到报警条件即可触发报警。
全部磁盘已使用容量(需安装agent) 批量监控多个云主机的磁盘已使用容量,任一云主机所有磁盘的已使用容量之和达到报警条件即可触发报警。
全部磁盘已使用容量百分比(需安装agent) 批量监控多个云主机的磁盘已使用容量百分比,任一云主机全部磁盘已使用容量百分比(百分比=所有磁盘已使用容量之和/所有磁盘容量之和)达到报警条件即可触发报警。
磁盘已使用容量(需安装agent) 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选云主机的磁盘已使用容量,任一云主机的任一磁盘已使用容量达到报警条件即可触发报警。
  • 指定配置:监控某个云主机指定磁盘的已使用容量,达到报警条件即可触发报警。
磁盘已使用容量百分比(需安装agent) 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选云主机的磁盘已使用容量百分比,任一云主机的任一磁盘已使用容量百分比达到报警条件即可触发报警。
  • 指定配置:监控某个云主机指定磁盘的已使用容量百分比,达到报警条件即可触发报警。
磁盘剩余容量百分比(需安装agent) 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选云主机的磁盘剩余容量百分比,任一云主机的任一磁盘剩余容量百分比达到报警条件即可触发报警。
  • 指定配置:监控某个云主机指定磁盘的剩余容量百分比,达到报警条件即可触发报警。
磁盘剩余容量(需安装agent) 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选云主机的磁盘剩余容量,任一云主机的任一磁盘剩余容量达到报警条件即可触发报警。
  • 指定配置:监控某个云主机指定磁盘的剩余容量,达到报警条件即可触发报警。
网卡 网卡入速度 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选云主机的网卡入速度,任一云主机的任一网卡入速度达到报警条件即可触发报警。
  • 指定配置:监控某个云主机指定网卡的入速度,达到报警条件即可触发报警。
全部网卡入速度 批量监控多个云主机的网卡入速度,任一云主机所有网卡入速度之和达到报警条件即可触发报警。
网卡入包数 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选云主机的网卡入包数,任一云主机的任一网卡入包数达到报警条件即可触发报警。
  • 指定配置:监控某个云主机指定网卡的入包数,达到报警条件即可触发报警。
全部网卡入包数 批量监控多个云主机的网卡入包数,任一云主机所有网卡入包数之和达到报警条件即可触发报警。
网卡入错误数 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选云主机的网卡入错误数,任一云主机的任一网卡入错误数达到报警条件即可触发报警。
  • 指定配置:监控某个云主机指定网卡的入错误数,达到报警条件即可触发报警。
全部网卡入错误数 批量监控多个云主机的网卡入错误数,任一云主机所有网卡入错误数之和达到报警条件即可触发报警。
网卡出速度 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选云主机的网卡出速度,任一云主机的任一网卡出速度达到报警条件即可触发报警。
  • 指定配置:监控某个云主机指定网卡的出速度,达到报警条件即可触发报警。
全部网卡出速度 批量监控多个云主机的网卡出速度,任一云主机所有网卡出速度之和达到报警条件即可触发报警。
网卡出包数 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选云主机的网卡出包数,任一云主机的任一网卡出包数达到报警条件即可触发报警。
  • 指定配置:监控某个云主机指定网卡的出包数,达到报警条件即可触发报警。
全部网卡出包数 批量监控多个云主机的网卡出包数,任一云主机所有网卡出包数之和达到报警条件即可触发报警。
网卡出错误数 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选云主机的网卡出错误数,任一云主机的任一网卡出错误数达到报警条件即可触发报警。
  • 指定配置:监控某个云主机指定网卡的出错误数,达到报警条件即可触发报警。
全部网卡出错误数 批量监控多个云主机的网卡出错误数,任一云主机所有网卡出错误数之和达到报警条件即可触发报警。
内存 内存空闲容量 批量监控多个云主机的内存空闲容量,任一云主机的内存空闲容量达到报警条件即可触发报警。
内存空闲百分比 批量监控多个云主机的内存空闲百分比,任一云主机的内存空闲百分比达到报警条件即可触发报警。
内存已用容量 批量监控多个云主机的内存已用容量,任一云主机的内存已用容量达到报警条件即可触发报警。
内存已用百分比 批量监控多个云主机的内存已用百分比,任一云主机的内存已用百分比达到报警条件即可触发报警。
内存已用百分比(需安装agent) 批量监控多个云主机的内存已用百分比,任一云主机的内存已用百分比达到报警条件即可触发报警。
其他 云主机数量 监控云平台内所有KVM云主机数量,达到报警条件即可触发报警。
运行云主机数量 监控云平台内所有运行状态的KVM云主机数量,达到报警条件即可触发报警。
运行云主机百分比 监控云平台内所有运行状态的KVM云主机百分比,达到报警条件即可触发报警。
停止云主机数量 监控云平台内所有停止状态的KVM云主机数量,达到报警条件即可触发报警。
停止云主机百分比 监控云平台内所有停止状态的KVM云主机百分比,达到报警条件即可触发报警。
其他状态云主机数量 监控云平台内所有其他状态(不包括:停止/运行)的KVM云主机数量,达到报警条件即可触发报警。
其他状态云主机百分比 监控云平台内所有其他状态(不包括:停止/运行)的KVM云主机百分比,达到报警条件即可触发报警。
裸金属主机(已安装裸金属管理模块许可证) CPU CPU使用率 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选裸金属主机所有CPU的使用率,任一裸金属主机的任一CPU使用率达到报警条件即可触发报警。
  • 指定配置:监控某个裸金属主机指定CPU的使用率,达到报警条件即可触发报警。
磁盘 磁盘读IOPS 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选裸金属主机所有磁盘的读IOPS,任一裸金属主机的任一磁盘读IOPS达到报警条件即可触发报警。
  • 指定配置:监控某个裸金属主机指定磁盘的读IOPS,达到报警条件即可触发报警。
磁盘写IOPS 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选裸金属主机所有磁盘的写IOPS,任一裸金属主机的任一磁盘写IOPS达到报警条件即可触发报警。
  • 指定配置:监控某个裸金属主机指定磁盘的写IOPS,达到报警条件即可触发报警。
磁盘读速度 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选裸金属主机所有磁盘的读速度,任一裸金属主机的任一磁盘读速度达到报警条件即可触发报警。
  • 指定配置:监控某个裸金属主机指定磁盘的读速度,达到报警条件即可触发报警。
磁盘写速度 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选裸金属主机所有磁盘的写速度,任一裸金属主机的任一磁盘写速度达到报警条件即可触发报警。
  • 指定配置:监控某个裸金属主机指定磁盘的写速度,达到报警条件即可触发报警。
磁盘已使用容量 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选裸金属主机所有磁盘的已使用容量,任一裸金属主机的任一磁盘已使用容量达到报警条件即可触发报警。
  • 指定配置:监控某个裸金属主机指定磁盘的已使用容量,达到报警条件即可触发报警。
磁盘已使用容量百分比 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选裸金属主机所有磁盘的已使用容量百分比,任一裸金属主机的任一磁盘已使用容量百分比达到报警条件即可触发报警。
  • 指定配置:监控某个裸金属主机指定磁盘的已使用容量百分比,达到报警条件即可触发报警。
磁盘剩余容量百分比 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选裸金属主机所有磁盘的剩余容量百分比,任一裸金属主机的任一磁盘剩余容量百分比达到报警条件即可触发报警。
  • 指定配置:监控某个裸金属主机指定磁盘的剩余容量百分比,达到报警条件即可触发报警。
磁盘剩余容量 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选裸金属主机所有磁盘的剩余容量,任一裸金属主机的任一磁盘剩余容量达到报警条件即可触发报警。
  • 指定配置:监控某个裸金属主机指定磁盘的剩余容量,达到报警条件即可触发报警。
网卡 网卡入速度 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选裸金属主机所有网卡的入速度,任一裸金属主机的任一网卡入速度达到报警条件即可触发报警。
  • 指定配置:监控某个裸金属主机指定网卡的入速度,达到报警条件即可触发报警。
网卡入包数 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选裸金属主机所有网卡的入包数,任一裸金属主机的任一网卡入包数达到报警条件即可触发报警。
  • 指定配置:监控某个裸金属主机指定网卡的入包数,达到报警条件即可触发报警。
网卡入错误数 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选裸金属主机所有网卡的入错误数,任一裸金属主机的任一网卡入错误数达到报警条件即可触发报警。
  • 指定配置:监控某个裸金属主机指定网卡的入错误数,达到报警条件即可触发报警。
网卡出速度 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选裸金属主机所有网卡的出速度,任一裸金属主机的任一网卡出速度达到报警条件即可触发报警。
  • 指定配置:监控某个裸金属主机指定网卡的出速度,达到报警条件即可触发报警。
网卡出包数 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选裸金属主机所有网卡的出包数,任一裸金属主机的任一网卡出包数达到报警条件即可触发报警。
  • 指定配置:监控某个裸金属主机指定网卡的出包数,达到报警条件即可触发报警。
网卡出错误数 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选裸金属主机所有网卡的出错误数,任一裸金属主机的任一网卡出错误数达到报警条件即可触发报警。
  • 指定配置:监控某个裸金属主机指定网卡的出错误数,达到报警条件即可触发报警。
内存 内存总量 批量监控多个裸金属主机的内存总量,任一裸金属主机的内存总量达到报警条件即可触发报警。
剩余内存量 批量监控多个裸金属主机的剩余内存量,任一裸金属主机的剩余内存量达到报警条件即可触发报警。
已用内存量 批量监控多个裸金属主机的已用内存量,任一裸金属主机的已用内存量达到报警条件即可触发报警。
可用内存量 批量监控多个裸金属主机的可用内存量,任一裸金属主机的可用内存量达到报警条件即可触发报警。
剩余内存百分比 批量监控多个裸金属主机的内存已用百分比,任一裸金属主机的内存已用百分比达到报警条件即可触发报警。
内存使用率 批量监控多个裸金属主机的内存使用率,任一裸金属主机的内存使用率达到报警条件即可触发报警。
弹性裸金属实例(已安装裸金属管理模块许可证) CPU CPU使用率 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选弹性裸金属实例所有CPU的使用率,任一弹性裸金属实例的任一CPU使用率达到报警条件即可触发报警。
  • 指定配置:监控某个弹性裸金属实例指定CPU的使用率,达到报警条件即可触发报警。
CPU平均使用率 批量监控多个弹性裸金属实例的平均CPU使用率,任一弹性裸金属实例的平均CPU使用率达到报警条件即可触发报警。
磁盘 磁盘读IOPS 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选弹性裸金属实例所有磁盘的读IOPS,任一弹性裸金属实例的任一磁盘读IOPS达到报警条件即可触发报警。
  • 指定配置:监控某个弹性裸金属实例指定磁盘的读IOPS,达到报警条件即可触发报警。
磁盘写IOPS 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选弹性裸金属实例所有磁盘的写IOPS,任一弹性裸金属实例的任一磁盘写IOPS达到报警条件即可触发报警。
  • 指定配置:监控某个弹性裸金属实例指定磁盘的写IOPS,达到报警条件即可触发报警。
磁盘读速度 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选弹性裸金属实例所有磁盘的读速度,任一弹性裸金属实例的任一磁盘读速度达到报警条件即可触发报警。
  • 指定配置:监控某个弹性裸金属实例指定磁盘的读速度,达到报警条件即可触发报警。
磁盘写速度 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选弹性裸金属实例所有磁盘的写速度,任一弹性裸金属实例的任一磁盘写速度达到报警条件即可触发报警。
  • 指定配置:监控某个弹性裸金属实例指定磁盘的写速度,达到报警条件即可触发报警。
磁盘已使用容量 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选弹性裸金属实例所有磁盘的已使用容量,任一弹性裸金属实例的任一磁盘已使用容量达到报警条件即可触发报警。
  • 指定配置:监控某个弹性裸金属实例指定磁盘的已使用容量,达到报警条件即可触发报警。
磁盘已使用容量百分比 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选弹性裸金属实例所有磁盘的已使用容量百分比,任一弹性裸金属实例的任一磁盘已使用容量百分比达到报警条件即可触发报警。
  • 指定配置:监控某个弹性裸金属实例指定磁盘的已使用容量百分比,达到报警条件即可触发报警。
磁盘剩余容量 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选弹性裸金属实例所有磁盘的剩余容量,任一弹性裸金属实例的任一磁盘剩余容量达到报警条件即可触发报警。
  • 指定配置:监控某个弹性裸金属实例指定磁盘的剩余容量,达到报警条件即可触发报警。
磁盘剩余容量百分比 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选弹性裸金属实例所有磁盘的剩余容量百分比,任一弹性裸金属实例的任一磁盘剩余容量百分比达到报警条件即可触发报警。
  • 指定配置:监控某个弹性裸金属实例指定磁盘的剩余容量百分比,达到报警条件即可触发报警。
网卡 网卡入速度 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选弹性裸金属实例所有网卡的入速度,任一弹性裸金属实例的任一网卡入速度达到报警条件即可触发报警。
  • 指定配置:监控某个弹性裸金属实例指定网卡的入速度,达到报警条件即可触发报警。
网卡入包数 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选弹性裸金属实例所有网卡的入包数,任一弹性裸金属实例的任一网卡入包数达到报警条件即可触发报警。
  • 指定配置:监控某个弹性裸金属实例指定网卡的入包数,达到报警条件即可触发报警。
网卡入错误数 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选弹性裸金属实例所有网卡的入错误数,任一弹性裸金属实例的任一网卡入错误数达到报警条件即可触发报警。
  • 指定配置:监控某个弹性裸金属实例指定网卡的入错误数,达到报警条件即可触发报警。
网卡出速度 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选弹性裸金属实例所有网卡的出速度,任一弹性裸金属实例的任一网卡出速度达到报警条件即可触发报警。
  • 指定配置:监控某个弹性裸金属实例指定网卡的出速度,达到报警条件即可触发报警。
网卡出包数 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选弹性裸金属实例所有网卡的出包数,任一弹性裸金属实例的任一网卡出包数达到报警条件即可触发报警。
  • 指定配置:监控某个弹性裸金属实例指定网卡的出包数,达到报警条件即可触发报警。
网卡出错误数 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选弹性裸金属实例所有网卡的出错误数,任一弹性裸金属实例的任一网卡出错误数达到报警条件即可触发报警。
  • 指定配置:监控某个弹性裸金属实例指定网卡的出错误数,达到报警条件即可触发报警。
内存 内存总量 批量监控多个弹性裸金属实例的内存总量,任一弹性裸金属实例的内存总量达到报警条件即可触发报警。
剩余内存量 批量监控多个弹性裸金属实例的剩余内存量,任一弹性裸金属实例的剩余内存量达到报警条件即可触发报警。
已用内存量 批量监控多个弹性裸金属实例的已用内存量,任一弹性裸金属实例的已用内存量达到报警条件即可触发报警。
可用内存量 批量监控多个弹性裸金属实例的可用内存量,任一弹性裸金属实例的可用内存量达到报警条件即可触发报警。
剩余内存百分比 批量监控多个弹性裸金属实例的内存已用百分比,任一弹性裸金属实例的内存已用百分比达到报警条件即可触发报警。
内存使用率 批量监控多个弹性裸金属实例的内存使用率,任一弹性裸金属实例的内存使用率达到报警条件即可触发报警。
VPC路由器 CPU CPU使用率 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选VPC路由器的CPU使用率,任一VPC路由器的任一CPU使用率达到报警条件即可触发报警。
  • 指定配置:监控某个VPC路由器指定CPU的使用率,达到报警条件即可触发报警。
CPU空闲率 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选VPC路由器的CPU空闲率,任一VPC路由器的任一CPU空闲率达到报警条件即可触发报警。
  • 指定配置:监控某个VPC路由器指定CPU的空闲率,达到报警条件即可触发报警。
全部CPU使用率 批量监控多个VPC路由器的CPU使用率,任一VPC路由器的全部CPU使用率之和达到报警条件即可触发报警。
Note: 百分比之和,可能大于100%。
全部CPU空闲率 批量监控多个VPC路由器的CPU空闲率,任一VPC路由器的全部CPU空闲率之和达到报警条件即可触发报警。
Note: 百分比之和,可能大于100%。
磁盘 磁盘读IOPS 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选VPC路由器的所有磁盘读IOPS,任一VPC路由器的任一磁盘读IOPS达到报警条件即可触发报警。
  • 指定配置:监控某个VPC路由器指定磁盘的读IOPS,达到报警条件即可触发报警。
全部磁盘读IOPS 批量监控多个VPC路由器的磁盘读IOPS,任一VPC路由器所有磁盘的读IOPS之和达到报警条件即可触发报警。
磁盘写IOPS 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选VPC路由器的所有磁盘写IOPS,任一VPC路由器的任一磁盘写IOPS达到报警条件即可触发报警。
  • 指定配置:监控某个VPC路由器指定磁盘的写IOPS,达到报警条件即可触发报警。
全部磁盘写IOPS 批量监控多个VPC路由器的磁盘写IOPS,任一VPC路由器所有磁盘的写IOPS之和达到报警条件即可触发报警。
磁盘读速度 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选VPC路由器的所有磁盘读速度,任一VPC路由器的任一磁盘读速度达到报警条件即可触发报警。
  • 指定配置:监控某个VPC路由器指定磁盘的读速度,达到报警条件即可触发报警。
全部磁盘读速度 批量监控多个VPC路由器的磁盘读速度,任一VPC路由器所有磁盘的读速度之和达到报警条件即可触发报警。
磁盘写速度 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选VPC路由器的所有磁盘写速度,任一VPC路由器的任一磁盘写速度达到报警条件即可触发报警。
  • 指定配置:监控某个VPC路由器指定磁盘的写速度,达到报警条件即可触发报警。
全部磁盘写速度 批量监控多个VPC路由器的磁盘写速度,任一VPC路由器所有磁盘的写速度之和达到报警条件即可触发报警。
全部磁盘剩余容量(已预装agent) 批量监控多个VPC路由器的全部磁盘剩余容量,任一VPC路由器全部磁盘剩余容量达到报警条件即可触发报警。
全部磁盘剩余容量百分比(已预装agent) 批量监控多个VPC路由器的全部磁盘剩余容量百分比,任一VPC路由器全部磁盘剩余容量百分比达到报警条件即可触发报警。
全部磁盘已使用容量(已预装agent) 批量监控多个VPC路由器的全部磁盘已使用容量,任一VPC路由器全部磁盘已使用容量达到报警条件即可触发报警。
全部磁盘已使用容量百分比(已预装agent) 批量监控多个VPC路由器的全部磁盘已使用容量百分比,任一VPC路由器全部磁盘已使用容量百分比达到报警条件即可触发报警。
磁盘剩余容量(已预装agent) 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选VPC路由器的磁盘剩余容量,任一VPC路由器的任一磁盘剩余容量达到报警条件即可触发报警。
  • 指定配置:监控某个VPC路由器指定磁盘的剩余容量,达到报警条件即可触发报警。
磁盘剩余容量百分比(已预装agent) 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选VPC路由器磁盘剩余容量百分比,任一VPC路由器的任一磁盘剩余容量百分比达到报警条件即可触发报警。
  • 指定配置:监控某个VPC路由器指定磁盘的剩余容量百分比,达到报警条件即可触发报警。
磁盘已使用容量(已预装agent) 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选VPC路由器磁盘已使用容量,任一VPC路由器的任一磁盘已使用容量达到报警条件即可触发报警。
  • 指定配置:监控某个VPC路由器指定磁盘的已使用容量,达到报警条件即可触发报警。
磁盘已使用容量百分比(已预装agent) 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选VPC路由器磁盘已使用容量百分比,任一VPC路由器的任一磁盘已使用容量百分比达到报警条件即可触发报警。
  • 指定配置:监控某个VPC路由器指定磁盘的已使用容量百分比,达到报警条件即可触发报警。
网卡 网卡入速度 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选VPC路由器的网卡入速度,任一VPC路由器的任一网卡入速度达到报警条件即可触发报警。
  • 指定配置:监控某个VPC路由器指定网卡的入速度,达到报警条件即可触发报警。
全部网卡入速度 批量监控多个VPC路由器的网卡入速度,任一VPC路由器所有网卡入速度之和达到报警条件即可触发报警。
网卡入包数 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选VPC路由器的网卡入包数,任一VPC路由器的任一网卡入包数达到报警条件即可触发报警。
  • 指定配置:监控某个VPC路由器指定网卡的入包数,达到报警条件即可触发报警。
全部网卡入包数 批量监控多个VPC路由器的网卡入包数,任一VPC路由器所有网卡入包数之和达到报警条件即可触发报警。
网卡入错误数 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选VPC路由器的网卡入错误数,任一VPC路由器的任一网卡入错误数达到报警条件即可触发报警。
  • 指定配置:监控某个VPC路由器指定网卡的入错误数,达到报警条件即可触发报警。
全部网卡入错误数 批量监控多个VPC路由器的网卡入错误数,任一VPC路由器所有网卡入错误数之和达到报警条件即可触发报警。
网卡出速度 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选VPC路由器的网卡出速度,任一VPC路由器的任一网卡出速度达到报警条件即可触发报警。
  • 指定配置:监控某个VPC路由器指定网卡的出速度,达到报警条件即可触发报警。
全部网卡出速度 批量监控多个VPC路由器的网卡出速度,任一VPC路由器所有网卡出速度之和达到报警条件即可触发报警。
网卡出包数 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选VPC路由器的网卡出包数,任一VPC路由器的任一网卡出包数达到报警条件即可触发报警。
  • 指定配置:监控某个VPC路由器指定网卡的出包数,达到报警条件即可触发报警。
全部网卡出包数 批量监控多个VPC路由器的网卡出包数,任一VPC路由器所有网卡出包数之和达到报警条件即可触发报警。
网卡出错误数 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选VPC路由器的网卡出错误数,任一VPC路由器的任一网卡出错误数达到报警条件即可触发报警。
  • 指定配置:监控某个VPC路由器指定网卡的出错误数,达到报警条件即可触发报警。
全部网卡出错误数 批量监控多个VPC路由器的网卡出错误数,任一VPC路由器所有网卡出错误数之和达到报警条件即可触发报警。
内存 内存空闲容量 批量监控多个VPC路由器的内存空闲容量,任一VPC路由器的内存空闲容量达到报警条件即可触发报警。
内存空闲百分比 批量监控多个VPC路由器的内存空闲百分比,任一VPC路由器的内存空闲百分比达到报警条件即可触发报警。
内存已用容量 批量监控多个VPC路由器的内存已用容量,任一VPC路由器的内存已用容量达到报警条件即可触发报警。
内存已用百分比 批量监控多个VPC路由器的内存已用百分比,任一VPC路由器的内存已用百分比达到报警条件即可触发报警。
镜像 镜像总数 监控云平台内镜像总数,达到报警条件即可触发报警。
可用镜像总数 监控云平台内可用镜像总数,达到报警条件即可触发报警。
可用镜像百分比 监控云平台内可用镜像百分比,达到报警条件即可触发报警。
根云盘镜像数量 监控云平台内根云盘镜像数量,达到报警条件即可触发报警。
根云盘镜像百分比 监控云平台内根云盘镜像百分比,达到报警条件即可触发报警。
数据云盘镜像数量 监控云平台内数据云盘镜像数量,达到报警条件即可触发报警。
数据云盘镜像百分比 监控云平台内数据云盘镜像百分比,达到报警条件即可触发报警。
ISO镜像数量 监控云平台内ISO镜像数量,达到报警条件即可触发报警。
ISO镜像百分比 监控云平台内ISO镜像百分比,达到报警条件即可触发报警。
镜像服务器 全部镜像存储可用容量 监控云平台内所有镜像服务器的可用容量,所有镜像服务器的可用容量之和达到报警条件即可触发报警。
全部镜像存储可用容量百分比 监控云平台内所有镜像服务器的可用容量百分比(百分比=所有镜像服务器可用容量之和/所有镜像服务器容量之和),达到报警条件即可触发报警。
镜像存储可用容量 批量监控多个镜像服务器的可用容量,任一镜像服务器的可用容量达到报警条件即可触发报警。
镜像存储可用容量百分比 批量监控多个镜像服务器的可用容量百分比,任一镜像服务器的可用容量百分比达到报警条件即可触发报警。
全部镜像存储已用容量 监控云平台内所有镜像服务器的已用容量,所有镜像服务器的已用容量之和达到报警条件即可触发报警。
全部镜像存储已用容量百分比 监控云平台内所有镜像服务器的已用容量百分比(百分比=所有镜像服务器已用容量之和/所有镜像服务器容量之和),达到报警条件即可触发报警。
镜像存储已用容量 批量监控多个镜像服务器的已用容量,任一镜像服务器的已用容量达到报警条件即可触发报警。
镜像存储已用容量百分比 批量监控多个镜像服务器的已用容量百分比,任一镜像服务器的已用容量百分比达到报警条件即可触发报警。
镜像存储禁用容量 监控云平台内镜像服务器的保留容量配置,保留容量达到报警条件即可触发报警。
镜像存储禁用容量百分比 监控云平台内镜像服务器的保留容量配置,任一镜像服务器禁用容量百分比(百分比=保留容量/镜像服务器总容量)达到报警条件即可触发报警。
系统数据目录 管理节点数据目录磁盘空闲容量 监控管理节点数据目录磁盘的空闲容量,达到报警条件即可触发报警。
管理节点数据目录磁盘空闲率 监控管理节点数据目录磁盘的空闲率,达到报警条件即可触发报警。
管理节点数据目录磁盘已用容量 监控管理节点数据目录磁盘的已用容量,达到报警条件即可触发报警。
管理节点数据目录磁盘占用率 监控管理节点数据目录磁盘的占用率,达到报警条件即可触发报警。
物理机 CPU CPU空闲率 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选物理机的CPU空闲率,任一物理机的任一CPU空闲率达到报警条件即可触发报警。
  • 指定配置:监控某个物理机指定CPU的空闲率,达到报警条件即可触发报警。
全部CPU空闲率 批量监控多个物理机的CPU空闲率,任一物理机的全部CPU空闲率之和达到报警条件即可触发报警。
Note: 百分比之和,可能大于100%。
CPU使用率 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选物理机的CPU使用率,任一物理机的任一CPU使用率达到报警条件即可触发报警。
  • 指定配置:监控某个物理机指定CPU的使用率,达到报警条件即可触发报警。
平均CPU使用率 批量监控多个物理机的CPU使用率,任一物理机的平均CPU使用率达到报警条件即可触发报警。
全部CPU使用率 批量监控多个物理机的CPU使用率,任一物理机的全部CPU使用率之和达到报警条件即可触发报警。
Note: 百分比之和,可能大于100%。
全部CPU数量 监控云平台内所有物理机全部CPU数量,CPU数量之和达到报警条件即可触发报警。
已使用CPU数量 监控云平台内所有物理机已使用的CPU数量,已使用CPU数量之和达到报警条件即可触发报警。
已禁用CPU数量 监控云平台内所有物理机已禁用CPU数量,已禁用CPU数量之和达到报警条件即可触发报警。
已使用CPU百分比 监控云平台内所有物理机总体已使用CPU百分比(百分比=所有物理机已使用CPU之和/所有物理机CPU之和),达到报警条件即可触发报警。
已禁用CPU百分比 监控云平台内所有物理机总体已禁用CPU百分比(百分比=所有物理机已禁用CPU之和/所有物理机CPU之和),达到报警条件即可触发报警。
可用CPU数量 监控云平台内所有物理机可用CPU数量,可用CPU数量之和达到报警条件即可触发报警。
可用CPU百分比 监控云平台内所有物理机总体可用CPU百分比(百分比=所有物理机可用CPU之和/所有物理机CPU之和),达到报警条件即可触发报警。
该物理机已使用CPU数量 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选物理机的已使用CPU数量,任一物理机的已使用CPU数量达到报警条件即可触发报警。
  • 指定配置:监控某个物理机的已使用CPU数量,达到报警条件即可触发报警。
该物理机已使用CPU百分比 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选物理机的已使用CPU百分比,任一物理机的已使用CPU百分比达到报警条件即可触发报警。
  • 指定配置:监控某个物理机已使用CPU百分比,达到报警条件即可触发报警。
该物理机可用CPU数量 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选物理机的可用CPU数量,任一物理机的可用CPU数量达到报警条件即可触发报警。
  • 指定配置:监控某个物理机的可用CPU数量,达到报警条件即可触发报警。
该物理机可用CPU百分比 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选物理机的可用CPU百分比,任一物理机可用CPU百分比达到报警条件即可触发报警。
  • 指定配置:监控某个物理机的可用CPU百分比,达到报警条件即可触发报警。
CPU温度 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选物理机的可用CPU温度,任一物理机CPU温度达到报警条件即可触发报警。
  • 指定配置:监控某个物理机CPU温度,达到报警条件即可触发报警。
内存 内存未使用容量 批量监控多个物理机的内存未使用容量,任一物理机的内存未使用容量达到报警条件即可触发报警。
内存未使用百分比 批量监控多个物理机的内存未使用百分比,任一物理机的内存未使用百分比达到报警条件即可触发报警。
内存使用容量 批量监控多个物理机的内存使用容量,任一物理机的内存使用容量达到报警条件即可触发报警。
内存使用百分比 批量监控多个物理机的内存使用百分比,任一物理机的内存使用百分比达到报警条件即可触发报警。
内存容量 监控云平台内所有物理机的内存容量,所有物理机的内存容量之和达到报警条件即可触发报警。
已使用内存容量 监控云平台内所有物理机的已使用内存容量,所有物理机的已使用内存容量之和达到报警条件即可触发报警。
已使用内存百分比 监控云平台内所有物理机的已使用内存容量,所有物理机的总体已使用内存百分比(百分比=所有物理机已使用内存容量之和/所有物理机内存容量之和)达到报警条件即可触发报警。
已禁用内存容量 监控云平台内物理机保留内存配置,保留内存容量达到报警条件即可触发报警。
已禁用内存容量百分比 监控云平台内物理机保留内存配置,任一物理机保留内存容量百分比(百分比=物理机保留内存/物理机总内存)达到报警条件即可触发报警。
剩余内存容量 监控云平台内所有物理机的剩余内存容量,所有物理机的剩余内存容量之和达到报警条件即可触发报警。
剩余内存容量百分比 监控云平台内所有物理机的剩余内存容量,所有物理机的总体剩余内存容量百分比(百分比=总剩余内存容量/总内存容量)达到报警条件即可触发报警。
该物理机已用内存容量 批量监控多个物理机的已用内存容量,任一物理机的已用内存容量达到报警条件即可触发报警。
该物理机已用内存容量百分比 批量监控多个物理机的已用内存容量百分比,任一物理机的已用内存容量百分比达到报警条件即可触发报警。
该物理机可用内存容量 批量监控多个物理机的可用内存容量,任一物理机的可用内存容量达到报警条件即可触发报警。
该物理机可用内存容量百分比 批量监控多个物理机的可用内存容量百分比,任一物理机的可用内存容量百分比达到报警条件即可触发报警。
磁盘 磁盘读IOPS 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选物理机的磁盘读IOPS,任一物理机的任一磁盘读IOPS达到报警条件即可触发报警。
  • 指定配置:监控某个物理机指定磁盘的读IOPS,达到报警条件即可触发报警。
全部磁盘读IOPS 批量监控多个物理机的磁盘读IOPS,任一物理机的所有磁盘读IOPS之和达到报警条件即可触发报警。
磁盘写IOPS 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选物理机的所有磁盘写IOPS,任一物理机的任一磁盘写IOPS达到报警条件即可触发报警。
  • 指定配置:监控某个物理机指定磁盘的写IOPS,达到报警条件即可触发报警。
全部磁盘写IOPS 批量监控多个物理机的磁盘写IOPS,任一物理机所有磁盘的写IOPS之和达到报警条件即可触发报警。
磁盘读速度 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选物理机的所有磁盘读速度,任一物理机的任一磁盘读速度达到报警条件即可触发报警。
  • 指定配置:监控某个物理机指定磁盘的读速度,达到报警条件即可触发报警。
全部磁盘读速度 批量监控多个物理机的磁盘读速度,任一物理机所有磁盘的读速度之和达到报警条件即可触发报警。
磁盘写速度 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选物理机的所有磁盘写速度,任一物理机的任一磁盘写速度达到报警条件即可触发报警。
  • 指定配置:监控某个物理机指定磁盘的写速度,达到报警条件即可触发报警。
全部磁盘写速度 批量监控多个物理机的磁盘写速度,任一物理机所有磁盘的写速度之和达到报警条件即可触发报警。
全部磁盘剩余容量 批量监控多个物理机的磁盘剩余容量,任一物理机所有磁盘的剩余容量之和达到报警条件即可触发报警。
全部磁盘剩余容量百分比 批量监控多个物理机的磁盘剩余容量百分比,任一物理机所有磁盘剩余容量百分比(百分比=所有磁盘剩余容量之和/所有磁盘容量之和)达到报警条件即可触发报警。
全部磁盘已使用容量 批量监控多个物理机的磁盘已使用容量,任一物理机所有磁盘的已使用容量之和达到报警条件即可触发报警。
全部磁盘已使用容量百分比 批量监控多个物理机的磁盘已使用容量百分比,任一物理机所有磁盘已使用容量百分比(百分比=所有磁盘已使用容量之和/所有磁盘容量之和)达到报警条件即可触发报警。
磁盘容量 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选物理机的磁盘容量,任一物理机的任一磁盘容量达到报警条件即可触发报警。
  • 指定配置:监控某个物理机指定磁盘的容量,达到报警条件即可触发报警。
磁盘剩余容量百分比 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选物理机的磁盘剩余容量百分比,任一物理机的任一磁盘剩余容量百分比达到报警条件即可触发报警。
  • 指定配置:监控某个物理机指定磁盘的剩余容量百分比,达到报警条件即可触发报警。
磁盘已使用容量 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选物理机的磁盘已使用容量,任一物理机的任一磁盘已使用容量达到报警条件即可触发报警。
  • 指定配置:监控某个物理机指定磁盘的已使用容量,达到报警条件即可触发报警。
磁盘已使用容量百分比 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选物理机的磁盘已使用容量百分比,任一物理机的任一磁盘已使用容量百分比达到报警条件即可触发报警。
  • 指定配置:监控某个物理机指定磁盘的已使用容量百分比,达到报警条件即可触发报警。
根盘使用率 批量监控多个物理机的根盘使用率,任一物理机的根盘使用率达到报警条件即可触发报警。
根盘使用容量 批量监控多个物理机的根盘使用容量,任一物理机的根盘使用容量达到报警条件即可触发报警。
XFS文件系统碎片化程度百分比 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选物理机的XFS文件系统碎片化程度百分比,任一物理机的XFS文件系统碎片化程度百分比达到报警条件即可触发报警。
  • 指定配置:监控某个物理机XFS文件系统的碎片化程度百分比,达到报警条件即可触发报警。
SSD温度 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选物理机的SSD磁盘温度,任一物理机的任一SSD磁盘温度达到报警条件即可触发报警。
  • 指定配置:监控某个物理机指定SSD磁盘温度,达到报警条件即可触发报警。
SSD剩余寿命 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选物理机的SSD磁盘剩余寿命,任一物理机的任一SSD磁盘剩余寿命达到报警条件即可触发报警。
  • 指定配置:监控某个物理机指定SSD磁盘剩余寿命,达到报警条件即可触发报警。
网卡 网卡入速度 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选物理机的网卡入速度,任一物理机的任一网卡入速度达到报警条件即可触发报警。
  • 指定配置:监控某个物理机指定网卡的入速度,达到报警条件即可触发报警。
全部网卡入速度 批量监控多个物理机的网卡入速度,任一物理机所有网卡入速度之和达到报警条件即可触发报警。
网卡入包数 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选物理机的网卡入包数,任一物理机的任一网卡入包数达到报警条件即可触发报警。
  • 指定配置:监控某个物理机指定网卡的入包数,达到报警条件即可触发报警。
全部网卡入包数 批量监控多个物理机的网卡入包数,任一物理机所有网卡入包数之和达到报警条件即可触发报警。
网卡入错误数 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选物理机的网卡入错误数,任一物理机的任一网卡入错误数达到报警条件即可触发报警。
  • 指定配置:监控某个物理机指定网卡的入错误数,达到报警条件即可触发报警。
全部网卡入错误数 批量监控多个物理机的网卡入错误数,任一物理机所有网卡入错误数之和达到报警条件即可触发报警。
网卡出速度 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选物理机的网卡出速度,任一物理机的任一网卡出速度达到报警条件即可触发报警。
  • 指定配置:监控某个物理机指定网卡的出速度,达到报警条件即可触发报警。
全部网卡出速度 批量监控多个物理机的网卡出速度,任一物理机所有网卡出速度之和达到报警条件即可触发报警。
网卡出包数 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选物理机的网卡出包数,任一物理机的任一网卡出包数达到报警条件即可触发报警。
  • 指定配置:监控某个物理机指定网卡的出包数,达到报警条件即可触发报警。
全部网卡出包数 批量监控多个物理机的网卡出包数,任一物理机所有网卡出包数之和达到报警条件即可触发报警。
网卡出错误数 是否指定配置,对资源的监控粒度不同。可按需选择:
  • 不指定配置:监控所选物理机的网卡出错误数,任一物理机的任一网卡出错误数达到报警条件即可触发报警。
  • 指定配置:监控某个物理机指定网卡的出错误数,达到报警条件即可触发报警。
全部网卡出错误数 批量监控多个物理机的网卡出错误数,任一物理机所有网卡出错误数之和达到报警条件即可触发报警。
物理机Conntrack连接数 批量监控多个物理机的Conntrack连接数,任一物理机的Conntrack连接数达到报警条件即可触发报警。
物理机Conntrack已使用百分比 批量监控多个物理机的Conntrack已使用量,任一物理机的Conntrack已使用百分比达到报警条件即可触发报警。
其他 物理机数量 监控云平台内物理机数量,物理机总数达到报警条件即可触发报警。
已连接物理机数量 监控云平台内物理机数量,已连接物理机数量达到报警条件即可触发报警。
已连接物理机百分比 监控云平台内物理机数量,已连接物理机百分比(百分比=已连接物理机数量/物理机总数)达到报警条件即可触发报警。
未连接物理机数量 监控云平台内物理机数量,未连接物理机数量达到报警条件即可触发报警。
未连接物理机百分比 监控云平台内物理机数量,未连接物理机百分比(百分比=未连接物理机数量/物理机总数)达到报警条件即可触发报警。
弹性裸金属网关节点 弹性裸金属网关节点数量 监控云平台内弹性裸金属网关节点数量,弹性裸金属网关节点总数达到报警条件即可触发报警。
已连接弹性裸金属网关节点数量 监控云平台内弹性裸金属网关节点数量,已连接弹性裸金属网关节点数量达到报警条件即可触发报警。
已连接弹性裸金属网关节点百分比 监控云平台内弹性裸金属网关节点数量,已连接弹性裸金属网关节点百分比(百分比=已连接弹性裸金属网关节点数量/弹性裸金属网关节点总数)达到报警条件即可触发报警。
未连接弹性裸金属网关节点数量 监控云平台内弹性裸金属网关节点数量,未连接弹性裸金属网关节点数量达到报警条件即可触发报警。
未连接弹性裸金属网关节点百分比 监控云平台内弹性裸金属网关节点数量,未连接弹性裸金属网关节点百分比(百分比=未连接弹性裸金属网关节点数量/弹性裸金属网关节点总数)达到报警条件即可触发报警。
三层网络 全部可用IP数 (IPv4) 监控云平台内所有IPv4类型三层网络的IP地址数量,所有三层网络的可用IP数之和达到报警条件即可触发报警。
全部可用IP百分比 (IPv4) 监控云平台内所有IPv4类型三层网络的IP地址数量,全部可用IP百分比(全部可用IP百分比=所有三层网络可用IP总数/所有三层网络IP总数)达到报警条件即可触发报警。
全部已用IP数 (IPv4) 监控云平台内所有IPv4类型三层网络的IP地址数量,所有三层网络的已用IP数之和达到报警条件即可触发报警。
全部已用IP百分比 (IPv4) 监控云平台内所有IPv4类型三层网络的IP地址数量,全部已用IP百分比(全部已用IP百分比=所有三层网络已用IP总数/所有三层网络IP总数)达到报警条件即可触发报警。
全部已禁用IP数 (IPv4) 监控云平台内所有IPv4类型三层网络的IP地址数量,所有三层网络的已禁用IP数之和达到报警条件即可触发报警。
全部已禁用IP百分比 (IPv4) 监控云平台内所有IPv4类型三层网络的IP地址数量,全部已禁用IP百分比(全部已禁用IP百分比=所有三层网络禁用IP总数/所有三层网络IP总数)达到报警条件即可触发报警。
可用IP数 (IPv4) 批量监控多个IPv4类型三层网络的IP地址数量,任一三层网络的可用IP数达到报警条件即可触发报警。
可用IP百分比 (IPv4) 批量监控多个IPv4类型三层网络的IP地址数量,任一三层网络的可用IP百分比达到报警条件即可触发报警。
已用IP数 (IPv4) 批量监控多个IPv4类型三层网络的IP地址数量,任一三层网络的已用IP数达到报警条件即可触发报警。
已用IP百分比 (IPv4) 批量监控多个IPv4类型三层网络的IP地址数量,任一三层网络的已用IP百分比达到报警条件即可触发报警。
云盘 云盘总数 监控云平台内根云盘和数据云盘数量,根云盘和数据云盘数量之和达到报警条件即可触发报警。
根云盘总数 监控云平台内根云盘数量,根云盘总数达到报警条件即可触发报警。
根云盘百分比 监控云平台内根云盘百分比(百分比=根云盘数量/根云盘和数据云盘数量之和),达到报警条件即可触发报警。
数据云盘总数 监控云平台内数据云盘数量,数据云盘总数达到报警条件即可触发报警。
数据云盘百分比 监控云平台内数据云盘百分比(百分比=数据云盘数量/根云盘和数据云盘数量之和),达到报警条件即可触发报警。
可用数据云盘总数 监控云平台内数据云盘状态,可用数据云盘数量达到报警条件即可触发报警。
可用数据云盘百分比 监控云平台内数据云盘状态,可用数据云盘百分比(百分比=可用数据云盘数量/数据云盘总量)达到报警条件即可触发报警。
云盘快照总数 监控云平台内云盘快照(数据云盘快照+根云盘快照)数量,云盘快照总数达到报警条件即可触发报警。
根云盘快照总数 监控云平台内根云盘快照数量,根云盘快照总数达到报警条件即可触发报警。
根云盘快照百分比 监控云平台内根云盘快照百分比(百分比=根云盘快照总数/根云盘快照与数据云盘快照之和),达到报警条件即可触发报警。
数据云盘快照总数 监控云平台内数据云盘快照数量,数据云盘快照总数达到报警条件即可触发报警。
数据云盘快照百分比 监控云平台内所有数据云盘快照百分比(百分比=数据云盘快照总数/根云盘快照与数据云盘快照之和),任一数据云盘快照百分比达到报警条件即可触发报警。
云盘使用容量百分比 监控云平台内所有云盘使用容量百分比(百分比=使用容量/云盘总容量),任一云盘使用容量百分比达到报警条件即可触发报警。
Note: 厚置备类型云盘(例如:Shared Block主存储上厚置备类型的云盘)的使用容量百分比为100%,设置此报警将立即触发。
(100GB及以上)碎片程度(Extent总数) 监控云平台内所有容量超过100GB云盘的碎片化程度,任一云盘碎片化程度的碎片程度(Extent总数)达到报警条件即可触发报警。
Note: 使用此报警条目需注意以下情况:
  • 系统默认XFS文件系统碎片化程度的监控数据采样时间间隔为12小时;
  • 注意匹配该采样周期,设置合理的报警器阈值持续时间。
虚拟IP 下行网络流量 批量监控多个虚拟IP的下行网络流量,任一虚拟IP的下行网络流量达到报警条件即可触发报警。
下行网络包数 批量监控多个虚拟IP的下行网络包数,任一虚拟IP的下行网络包数达到报警条件即可触发报警。
上行网络流量 批量监控多个虚拟IP的上行网络流量,任一虚拟IP的上行网络流量达到报警条件即可触发报警。
上行网络包数 批量监控多个虚拟IP的上行网络包数,任一虚拟IP的上行网络包数达到报警条件即可触发报警。
主存储 全部容量 监控云平台内所有主存储容量,所有主存储容量之和达到报警条件即可触发报警。
全部可用容量 监控云平台内所有主存储可用容量,所有主存储可用容量之和达到报警条件即可触发报警。
全部可用容量百分比 监控云平台内所有主存储可用容量百分比(百分比=所有主存储可用容量之和/所有主存储容量之和),达到报警条件即可触发报警。
全部已用容量 监控云平台内所有主存储已用容量,所有主存储已用容量之和达到报警条件即可触发报警。
全部已用容量百分比 监控云平台内所有主存储已用容量百分比(百分比=所有主存储已用容量之和/所有主存储容量之和),达到报警条件即可触发报警。
全部已禁用容量 监控云平台内主存储保留容量配置,所有主存储保留容量之和达到报警条件即可触发报警。
全部已禁用容量百分比 监控云平台内所有主存储保留容量配置,主存储全部已禁用容量百分比(百分比=所有主存储保留容量之和/所有主存储容量之和)达到报警条件即可触发报警。
该主存储可用容量 批量监控多个主存储的可用容量,任一主存储的可用容量达到报警条件即可触发报警。
该主存储可用容量百分比 批量监控多个主存储的可用容量百分比(百分比=可用容量/主存储总容量),任一主存储的可用容量百分比达到报警条件即可触发报警。
该主存储已用容量 批量监控多个主存储的已用容量,任一主存储的已用容量达到报警条件即可触发报警。
该主存储已用容量百分比 批量监控多个主存储的已用容量百分比(百分比=已用容量/主存储总容量),任一主存储的已用容量百分比达到报警条件即可触发报警。
该主存储可用物理容量 批量监控多个主存储的可用物理容量,任一主存储的可用物理容量达到报警条件即可触发报警。
该主存储可用物理容量百分比 批量监控多个主存储的可用物理容量百分比(百分比=可用物理容量/主存储总物理容量),任一主存储的可用物理容量百分比达到报警条件即可触发报警。
该主存储已用物理容量 批量监控多个主存储的已用物理容量,任一主存储的已用物理容量达到报警条件即可触发报警。
该主存储已用物理容量百分比 批量监控多个主存储的已用物理容量百分比(百分比=已用物理容量/主存储总物理容量),任一主存储的已用物理容量百分比达到报警条件即可触发报警。
该主存储根云盘数量 批量监控多个主存储内的根云盘数量,任一主存储内的根云盘数量达到报警条件即可触发报警。
该主存储数据云盘数量 批量监控多个主存储内的数据云盘数量,任一主存储内的数据云盘数量达到报警条件即可触发报警。
该主存储快照数量 批量监控多个主存储内的快照数量,任一主存储内的快照数量达到报警条件即可触发报警。
Ceph存储池可用容量百分比 批量监控多个主存储内的Ceph存储池可用容量百分比,任一主存储内的Ceph存储池可用容量达到报警条件即可触发报警。
Ceph存储池已用容量百分比 批量监控多个主存储内的Ceph存储池已用容量百分比,任一主存储内的Ceph存储池已用容量达到报警条件即可触发报警。
监听器 会话已用数量 批量监控多个监听器的会话数量,任一监听器的会话已用数量达到报警条件即可触发报警。
会话已用百分比 批量监控多个监听器的会话已用百分比(百分比=会话已用数量/会话总量),任一监听器的会话已用百分比达到报警条件即可触发报警。
检查不到健康的后端服务器 批量监控多个监听器的后端服务器组中的后端服务器状态,任一监听器的后端服务器组中存在不健康的后端服务器即可触发报警。
管理节点 仲裁IP不可达 监控多管理节点仲裁IP是否可达,当仲裁IP不可达时即可触发报警。
双管理节点数据库不同步 监控双管理节点数据库状态,当数据库异常或双管理节点数据库不同步时即可触发报警。
项目资源(需拥有企业管理模块许可证) 计算资源 云主机数量配额使用百分比 报警范围支持全部资源和资源多选两种,可按需选择:
  • 全部资源:监控云平台内所有项目的云主机数量配额使用百分比,任一项目的云主机数量配额使用百分比达到阈值即可触发报警。
  • 资源多选:监控所选项目的云主机数量配额使用百分比,任一项目的云主机数量配额使用百分比达到阈值即可触发报警。
运行中云主机数量配额使用百分比 报警范围支持全部资源和资源多选两种,可按需选择:
  • 全部资源:监控云平台内所有项目的运行中云主机数量配额使用百分比,任一项目的运行中云主机数量配额使用百分比达到阈值即可触发报警。
  • 资源多选:监控所选项目的运行中云主机数量配额使用百分比,任一项目的运行中云主机数量配额使用百分比达到阈值即可触发报警。
CPU数量配额使用百分比 报警范围支持全部资源和资源多选两种,可按需选择:
  • 全部资源:监控云平台内所有项目的CPU数量配额使用百分比,任一项目的CPU数量配额使用百分比达到阈值即可触发报警。
  • 资源多选:监控所选项目的CPU数量配额使用百分比,任一项目的CPU数量配额使用百分比达到阈值即可触发报警。
内存配额使用百分比 报警范围支持全部资源和资源多选两种,可按需选择:
  • 全部资源:监控云平台内所有项目的内存配额使用百分比,任一项目的内存配额使用百分比达到阈值即可触发报警。
  • 资源多选:监控所选项目的内存配额使用百分比,任一项目的内存配额使用百分比达到阈值即可触发报警。
GPU设备数量配额使用百分比 报警范围支持全部资源和资源多选两种,可按需选择:
  • 全部资源:监控云平台内所有项目的GPU设备数量配额使用百分比,任一项目的GPU设备数量配额使用百分比达到阈值即可触发报警。
  • 资源多选:监控所选项目的GPU设备数量配额使用百分比,任一项目的GPU设备数量配额使用百分比达到阈值即可触发报警。
亲和组数量配额使用百分比 报警范围支持全部资源和资源多选两种,可按需选择:
  • 全部资源:监控云平台内所有项目的亲和组数量配额使用百分比,任一项目的亲和组数量配额使用百分比达到阈值即可触发报警。
  • 资源多选:监控所选项目的亲和组数量配额使用百分比,任一项目的亲和组数量配额使用百分比达到阈值即可触发报警。
存储资源 云盘快照数量配额使用百分比 报警范围支持全部资源和资源多选两种,可按需选择:
  • 全部资源:监控云平台内所有项目的云盘快照数量配额使用百分比,任一项目的云盘快照数量配额使用百分比达到阈值即可触发报警。
  • 资源多选:监控所选项目的云盘快照数量配额使用百分比,任一项目的云盘快照数量配额使用百分比达到阈值即可触发报警。
数据云盘数量配额使用百分比 报警范围支持全部资源和资源多选两种,可按需选择:
  • 全部资源:监控云平台内所有项目的数据云盘数量配额使用百分比,任一项目的数据云盘数量配额使用百分比达到阈值即可触发报警。
  • 资源多选:监控所选项目的数据云盘数量配额使用百分比,任一项目的数据云盘数量配额使用百分比达到阈值即可触发报警。
可用存储容量配额使用百分比 报警范围支持全部资源和资源多选两种,可按需选择:
  • 全部资源:监控云平台内所有项目的可用存储容量配额使用百分比,任一项目的可用存储容量配额使用百分比达到阈值即可触发报警。
  • 资源多选:监控所选项目的可用存储容量配额使用百分比,任一项目的可用存储容量配额使用百分比达到阈值即可触发报警。
镜像数量配额使用百分比 报警范围支持全部资源和资源多选两种,可按需选择:
  • 全部资源:监控云平台内所有项目的镜像数量配额使用百分比,任一项目的镜像数量配额使用百分比达到阈值即可触发报警。
  • 资源多选:监控所选项目的镜像数量配额使用百分比,任一项目的镜像数量配额使用百分比达到阈值即可触发报警。
所有镜像容量配额使用百分比 报警范围支持全部资源和资源多选两种,可按需选择:
  • 全部资源:监控云平台内所有项目的所有镜像容量配额使用百分比,任一项目的所有镜像容量配额使用百分比达到阈值即可触发报警。
  • 资源多选:监控所选项目的所有镜像容量配额使用百分比,任一项目的所有镜像容量配额使用百分比达到阈值即可触发报警。
可用备份容量配额使用百分比 报警范围支持全部资源和资源多选两种,可按需选择:
  • 全部资源:监控云平台内所有项目的可用备份容量配额使用百分比,任一项目的可用备份容量配额使用百分比达到阈值即可触发报警。
  • 资源多选:监控所选项目的可用备份容量配额使用百分比,任一项目的可用备份容量配额使用百分比达到阈值即可触发报警。
备份数量配额使用百分比 报警范围支持全部资源和资源多选两种,可按需选择:
  • 全部资源:监控云平台内所有项目的备份数量配额使用百分比,任一项目的备份数量配额使用百分比达到阈值即可触发报警。
  • 资源多选:监控所选项目的备份数量配额使用百分比,任一项目的备份数量配额使用百分比达到阈值即可触发报警。
网络资源 VXLAN网络数量配额使用百分比 报警范围支持全部资源和资源多选两种,可按需选择:
  • 全部资源:监控云平台内所有项目的VXLAN网络数量配额使用百分比,任一项目的VXLAN网络数量配额使用百分比达到阈值即可触发报警。
  • 资源多选:监控所选项目的VXLAN网络数量配额使用百分比,任一项目的VXLAN网络数量配额使用百分比达到阈值即可触发报警。
三层网络数量配额使用百分比 报警范围支持全部资源和资源多选两种,可按需选择:
  • 全部资源:监控云平台内所有项目的三层网络数量配额使用百分比,任一项目的三层网络数量配额使用百分比达到阈值即可触发报警。
  • 资源多选:监控所选项目的三层网络数量配额使用百分比,任一项目的三层网络数量配额使用百分比达到阈值即可触发报警。
安全组数量配额使用百分比 报警范围支持全部资源和资源多选两种,可按需选择:
  • 全部资源:监控云平台内所有项目的安全组数量配额使用百分比,任一项目的安全组数量配额使用百分比达到阈值即可触发报警。
  • 资源多选:监控所选项目的安全组数量配额使用百分比,任一项目的安全组数量配额使用百分比达到阈值即可触发报警。
虚拟IP数量配额使用百分比 报警范围支持全部资源和资源多选两种,可按需选择:
  • 全部资源:监控云平台内所有项目的虚拟IP数量配额使用百分比,任一项目的虚拟IP数量配额使用百分比达到阈值即可触发报警。
  • 资源多选:监控所选项目的虚拟IP数量配额使用百分比,任一项目的虚拟IP数量配额使用百分比达到阈值即可触发报警。
弹性IP数量配额使用百分比 报警范围支持全部资源和资源多选两种,可按需选择:
  • 全部资源:监控云平台内所有项目的弹性IP数量配额使用百分比,任一项目的弹性IP数量配额使用百分比达到阈值即可触发报警。
  • 资源多选:监控所选项目的弹性IP数量配额使用百分比,任一项目的弹性IP数量配额使用百分比达到阈值即可触发报警。
端口转发数量配额使用百分比 报警范围支持全部资源和资源多选两种,可按需选择:
  • 全部资源:监控云平台内所有项目的端口转发数量配额使用百分比,任一项目的端口转发数量配额使用百分比达到阈值即可触发报警。
  • 资源多选:监控所选项目的端口转发数量配额使用百分比,任一项目的端口转发数量配额使用百分比达到阈值即可触发报警。
负载均衡器数量配额使用百分比 报警范围支持全部资源和资源多选两种,可按需选择:
  • 全部资源:监控云平台内所有项目的负载均衡器数量配额使用百分比,任一项目的负载均衡器数量配额使用百分比达到阈值即可触发报警。
  • 资源多选:监控所选项目的负载均衡器数量配额使用百分比,任一项目的负载均衡器数量配额使用百分比达到阈值即可触发报警。
监听器数量配额使用百分比 报警范围支持全部资源和资源多选两种,可按需选择:
  • 全部资源:监控云平台内所有项目的监听器数量配额使用百分比,任一项目的监听器数量配额使用百分比达到阈值即可触发报警。
  • 资源多选:监控所选项目的监听器数量配额使用百分比,任一项目的监听器数量配额使用百分比达到阈值即可触发报警。
CDP任务(需拥有持续数据保护CDP模块许可证) CDP任务已用容量占规划容量百分比 监控云平台内所有CDP任务已用容量占规划容量的百分比,任一CDP任务的已用容量与规划容量的占比达到阈值即可触发报警。
RPO偏移时间 监控云平台内所有CDP任务的RPO偏移时间,任一CDP任务的RPO偏移时间达到阈值即可触发报警。

事件报警条目

默认报警条目

资源类型 报警条目 描述
云主机 云主机故障 默认监控云平台内所有运行中的云主机状态,任一运行中的云主机出现故障即可触发报警。
Note: 云主机需安装最新版本的GuestTools工具,且该工具需处于运行状态。
云主机长时间处于in shutdown状态
  • 默认监控云平台所有云主机。
  • 任一云主机长时间处于in shutdown状态,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
云主机在物理机HA启动
  • 默认监控云平台所有云主机。
  • 任一云主机在物理机HA启动,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
物理机 物理机已连接
  • 默认监控云平台所有物理机。
  • 任一物理机从失联状态恢复连接,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
物理机进入维护模式触发云主机迁移失败
  • 默认监控云平台所有物理机。
  • 任一物理机进入维护模式触发云主机迁移失败,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
物理机未连接
  • 默认监控云平台所有物理机。
  • 任一物理机失联,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
物理机网卡未连接
  • 默认监控云平台所有物理机网卡。
  • 任一物理机网卡未连接,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
物理机网卡已连接
  • 默认监控云平台所有物理机网卡。
  • 任一物理机网卡从失联状态恢复连接,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
物理机挂载路径错误
  • 默认监控云平台所有物理机。
  • 任一物理机挂载路径错误,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
物理机上发现了未受系统管控的云主机
  • 默认监控云平台所有物理机。
  • 任一物理机上发现了未受系统管控的云主机,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
CPU状态异常
  • 默认监控云平台所有物理机。
  • 任一物理机上发现了状态异常的CPU,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
内存状态异常
  • 默认监控云平台所有物理机。
  • 任一物理机上发现了状态异常的内存,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
内存ECC告警
  • 默认监控云平台所有物理机。
  • 任一物理机上发现内存ECC告警,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
磁盘状态异常
  • 默认监控云平台所有物理机。
  • 任意物理机上发现了物理磁盘的就绪状态异常,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
磁盘拔出
  • 默认监控云平台所有物理机。
  • 任意物理机上发现了磁盘拔出,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
磁盘插入
  • 默认监控云平台所有物理机。
  • 任意物理机上发现了磁盘插入,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
风扇状态异常
  • 默认监控云平台所有物理机。
  • 任意物理机上发现了状态检查异常的风扇,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
镜像服务器 镜像服务器已连接
  • 默认监控云平台所有镜像服务器。
  • 任一镜像服务器从失联状态恢复连接,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
镜像服务器未连接
  • 默认监控云平台所有镜像服务器。
  • 任一镜像服务器失联,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
主存储 主存储已连接
  • 默认监控云平台所有主存储。
  • 任一主存储从失联状态恢复连接,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
主存储未连接
  • 默认监控云平台所有主存储。
  • 任一主存储失联,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
主存储到物理机连接状态检查失败
  • 默认监控云平台所有主存储。
  • 任一主存储到物理机连接状态检查失败,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
管理节点 管理节点已连接
  • 默认监控云平台所有管理节点。
  • 任一管理节点从失联状态恢复连接,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
管理节点未连接
  • 默认监控云平台所有管理节点。
  • 任一管理节点失联,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
VPC路由器 VPC路由器已连接
  • 默认监控云平台所有VPC路由器。
  • 任一VPC路由器从失联状态恢复连接,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
VPC路由器未连接
  • 默认监控云平台所有VPC路由器。
  • 任一VPC路由器失联,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
路由器主备切换
  • 默认监控云平台所有VPC路由器。
  • 任一VPC路由器主备切换,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
VPC路由器磁盘空间被异常文件占用
  • 默认监控云平台所有VPC路由器。
  • 任一VPC路由器出现超过100 MB的单个文件即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
路由器的启用状态变为已暂停
  • 默认监控云平台所有VPC路由器。
  • 任一VPC路由器的启用状态变为已暂停即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
通知对象 短信发送失败
  • 默认监控云平台所有短信接收端。
  • 任一短信接收端无法接受短信报警消息,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
CDP任务(需拥有持续数据保护CDP模块许可证) CDP任务状态异常切换
  • 监控云平台内所有CDP任务的任务状态。
  • 任一CDP任务状态发生异常切换即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
Note: 触发CDP任务状态异常切换的原因:
  • CDP数据占用容量达到规划容量上限
  • CDP任务所在的备份服务器失联
负载均衡实例 负载均衡实例未连接
  • 默认监控云平台所有负载均衡实例。
  • 任一负载均衡实例失联,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。
负载均衡实例已连接
  • 默认监控云平台所有负载均衡实例。
  • 任一负载均衡实例从失联状态恢复连接,即可触发报警。
  • 默认触发云平台消息通知,绑定接收端之后,可通过接收端接收报警消息。

自定义报警条目

资源类型 报警条目 描述
云主机 云主机在物理机HA启动 监控云平台内所有NeverStop云主机,任一NeverStop云主机在物理机HA启动即可触发报警。
云主机在物理机上的状态发生变化 监控云平台内所有云主机在物理机上的状态,任一云主机的状态发生变化即可触发报警。
Note: 云主机异常的状态变化才会触发报警,正常的开关机等操作不会触发报警。
云主机长时间处于in shutdown状态 监控云平台内所有云主机状态,任一云主机长时间(约10分钟)处于in shutdown状态即可触发报警。
云主机故障 监控云平台内所有运行中的云主机状态,任一运行中的云主机出现故障即可触发报警。
Note: 云主机需安装最新版本的GuestTools工具,且该工具需处于运行状态。
VPC路由器 VPC路由器未连接 监控云平台内所有VPC路由器的就绪状态,任一路由器失联即可触发报警。
VPC路由器已连接 监控云平台内所有VPC路由器的就绪状态,任一VPC路由器连接后即可触发报警。
路由器主备切换 监控云平台高可用组内的VPC路由器状态,任意高可用组内的VPC路由器发生主备切换即可触发报警。
VPC路由器磁盘空间被异常文件占用 监控云平台所有VPC路由器内的磁盘占用情况,任一VPC路由器出现超过100 MB的单个文件即可触发报警。
负载均衡 负载均衡实例未连接 监控云平台内所有负载均衡实例的就绪状态,任一负载均衡实例失联即可触发报警。
负载均衡实例已连接 监控云平台内所有负载均衡实例的就绪状态,任一负载均衡实例连接后即可触发报警。
镜像服务器 镜像服务器未连接 监控云平台内所有镜像服务器的就绪状态,任一镜像服务器失联即可触发报警。
镜像服务器已连接 监控云平台内所有镜像服务器的就绪状态,任一镜像服务器连接后即可触发报警。
管理节点 管理节点未连接 监控云平台内所有管理节点的就绪状态,任一管理节点失联即可触发报警。
管理节点已连接 监控云平台内所有管理节点的就绪状态,任一管理节点连接后即可触发报警。
物理机 物理机上发现了未受系统管控的云主机 监控云平台内所有物理机上的云主机状态,任一实例云主机未被数据库记录即可触发报警。
物理机未连接 监控云平台内所有物理机的就绪状态,任一物理机失联即可触发报警。
物理机已连接 监控云平台内所有物理机的就绪状态,任一物理机连接后即可触发报警。
物理机网卡未连接 监控云平台内所有处于已连接状态的物理机的网卡就绪状态,任一物理机网卡未连接即可触发报警。
物理机网卡已连接 监控云平台内所有处于已连接状态的物理机的网卡就绪状态,任一物理机网卡恢复正常连接即可触发报警。
CPU状态异常 监控云平台内所有处于已连接状态的物理机的CPU状态,任一物理机CPU状态异常即可触发报警。
内存状态异常 监控云平台内所有处于已连接状态的物理机的内存状态,任一物理机内存状态异常即可触发报警。
内存ECC告警 监控云平台内所有处于已连接状态的物理机ECC告警,任一物理机发现内存ECC告警即可触发报警。
磁盘状态异常 监控云平台内所有处于已连接状态的物理机的磁盘就绪状态,任一物理机磁盘配置状态检查异常即可触发报警。
磁盘拔出 监控云平台内所有处于已连接状态的物理机的磁盘连接状态,任一物理机磁盘拔出即可触发报警。
磁盘插入 监控云平台内所有处于已连接状态的物理机的磁盘连接状态,任一物理机磁盘插入即可触发报警。
风扇状态异常 监控云平台内所有处于已连接状态的物理机的风扇状态,任一物理机风扇状态检查异常即可触发报警。
主存储 主存储到物理机连接状态检查失败 监控云平台内主存储与物理机的连接状态,当云平台未获取到主存储与物理机的连接状态时,即可触发报警。
主存储未连接 监控云平台内所有主存储的就绪状态,任一主存储失联即可触发报警。
主存储已连接 监控云平台内所有主存储的就绪状态,任一主存储连接后即可触发报警。
物理机挂载路径错误 监控云平台内指定主存储(NFS/SharedMountPoint/AliyunNAS)的URL(物理机挂载路径),当任一主存储的URL无法获取时,即可触发报警。
vCenter vCenter物理机时间异常 监控已接管vCenter环境内所有物理机时间与云平台系统时间是否一致,任一vCenter物理机时间异常即可触发报警。
vCenter事件消息 展示已接管vCenter的事件消息,任一vCenter产生的事件消息均可通过报警的形式展示出来。
备份任务 任务结果失败 监控云平台内所有备份任务的执行状态,任一备份任务失败后即可触发报警。
项目资源(需拥有企业管理模块许可证) 项目已回收 监控云平台内所有项目状态,任一项目被回收即可触发报警。
HA 物理机进入维护模式触发云主机迁移失败 监控云平台内云主机的迁移情况,任一非本地存储的物理机进入维护模式触发云主机迁移失败即可触发报警。
CDP任务(需拥有持续数据保护CDP模块许可证) CDP任务失败 监控云平台内所有CDP任务的执行状态,任一CDP任务失败后即可触发报警。
CDP任务状态异常切换 监控云平台内所有CDP任务的任务状态,任一CDP任务状态发生异常切换即可触发报警。
Note: 触发CDP任务状态异常切换的原因:
  • CDP数据占用容量达到规划容量上限
  • CDP任务所在的备份服务器失联