云平台监控

性能分析

性能分析:通过列表方式展示云平台核心资源的性能监控指标,提供外部和内部两种监控方式,支持按资源查看性能分析结果和自定义导出分析报表,方便用户掌控云平台性能状态,提高运维效率。

查看性能分析

ZStack Cloud主菜单,点击平台运维 > 云平台监控 > 监控图表 > 性能分析,进入性能分析界面。

图 1所示:
图 1. 查看性能分析


性能分析界面由筛选器和分析报表两部分组成。
  • 筛选器:支持基础筛选和高级筛选。
    • 基础筛选:支持按资源类型、监控方式、时间范围进行筛选。
      • 资源类型:支持按需查看云主机、VPC路由器、物理机、镜像服务器、三层网络和虚拟IP的监控数据。
      • 监控方式:支持外部监控和内部监控两种方式。
        • 外部监控:由Libvirt从物理机处获取监控数据,包括:CPU、内存、磁盘I/O、网卡。
        • 内部监控:由agent直接获取云主机/VPC路由器内部监控数据并推送到物理机(需要预先安装agent),包括:CPU、内存、磁盘容量。
        Note: 对于内存数据而言,内部监控比外部监控拥有更好的准确性,推荐在监控内存数据时使用内部监控。
      • 时间范围:支持选择不同的时间跨度查看监控数据,可选的时间跨度包括15分钟、1小时、1周和自定义。
    • 高级筛选:支持按筛选条目、资源范围、所有者范围进一步细粒度筛选。
      • 筛选条目:支持根据监控指标与指标值(如:CPU使用率 >= 75%),将资源进行排序查看。
      • 资源范围:支持查看云平台全部资源的监控信息,或指定资源进行查看监控信息。
      • 所有者范围:针对云主机/VPC路由器/虚拟IP资源,支持查看云平台全部所有者的监控信息,或指定所有者进行查看监控信息。
  • 分析报表:根据筛选条件,生成对应的分析报表。
    • 支持根据资源名称或监控指标进行排序。
    • 支持以CSV格式导出全部或当前页面的报表信息。
    • 支持自定义每页展示的条目数量,默认每页展示10个条目。
    Note:
    • 云主机分析报表页面支持停止云主机操作。
    • 云主机分析报表支持根据云主机的启用状态进行筛选。
    • 云主机/VPC路由分析报表支持自定义展示列。
    • 导出云主机/VPC路由器分析报表时,支持自定义导出监控指标的平均值、最大值和最小值。
不同资源对应的监控指标说明如下:
资源类型 监控方式 监控指标 描述
云主机/VPC路由器 外部监控 默认IPv4地址 默认展示当前区域内所有云主机的默认IPv4地址
Note: VPC路由器暂不支持此项。
存储占用量 默认展示当前区域内所有云主机的云盘在主存储上占用的容量大小,包括根云盘和已加载的数据云盘。
Note: VPC路由器暂不支持此项。
云盘总容量 展示云主机云盘总容量,包括根云盘和已加载的数据云盘。
Note: VPC路由器暂不支持此项。
CPU使用率 默认展示当前区域内所有云主机/VPC路由器的CPU使用率(平均值)
Note: 如果存在多个CPU,CPU使用率可能会超过100%。
内存使用率 默认展示当前区域内所有云主机/VPC路由器的内存平均使用率(平均值)
磁盘读速度 默认展示当前区域内所有云主机/VPC路由器的磁盘读速度(平均值)
磁盘写速度 默认展示当前区域内所有云主机/VPC路由器的磁盘写速度(平均值)
网卡入速度 默认展示当前区域内所有云主机/VPC路由器的网卡入速度(平均值)
网卡出速度 默认展示当前区域内所有云主机/VPC路由器的网卡出速度(平均值)
磁盘读IOPS 默认展示当前区域内所有云主机/VPC路由器的磁盘读IOPS(平均值)
磁盘写IOPS 默认展示当前区域内所有云主机/VPC路由器的磁盘写IOPS(平均值)
网卡入包数 默认展示当前区域内所有云主机/VPC路由器的网卡入包数(平均值)
网卡出包数 默认展示当前区域内所有云主机/VPC路由器的网卡出包数(平均值)
网卡入错误速率 默认展示当前区域内所有云主机/VPC路由器的网卡入错误率(平均值)
网卡出错误速率 默认展示当前区域内所有云主机/VPC路由器的网卡出错误率(平均值)
内部监控 默认IPv4地址 默认展示当前区域内所有云主机的默认IPv4地址
Note: VPC路由器暂不支持此项。
存储占用量 默认展示当前区域内所有云主机的云盘在主存储上占用的容量大小,包括根云盘和已加载的数据云盘。
Note: VPC路由器暂不支持此项。
云盘总容量 展示云主机云盘总容量,包括根云盘和已加载的数据云盘。
Note: VPC路由器暂不支持此项。
CPU使用率 默认展示当前区域内所有云主机/VPC路由器的CPU使用率(平均值)
CPU系统进程使用率 默认展示当前区域内所有云主机/VPC路由器的CPU系统进程使用率(平均值)
CPU用户进程使用率 默认展示当前区域内所有云主机/VPC路由器的CPU用户进程使用率(平均值)
CPU等待占用率 默认展示当前区域内所有云主机/VPC路由器的CPU等待占用率(平均值)
CPU空闲率 默认展示当前区域内所有云主机/VPC路由器的CPU空闲率(平均值)
内存使用率 默认展示当前区域内所有云主机/VPC路由器的内存使用率(平均值)
内存空闲率 默认展示当前区域内所有云主机/VPC路由器的内存空闲率(平均值)
磁盘使用率 默认展示当前区域内所有云主机/VPC路由器的磁盘使用率(平均值)
磁盘空闲率 默认展示当前区域内所有云主机/VPC路由器的磁盘空闲率(平均值)
物理机 / 磁盘读IOPS 默认展示当前区域内所有物理机的磁盘读IOPS(平均值)
/ 磁盘写IOPS 默认展示当前区域内所有物理机的磁盘写IOPS(平均值)
/ 磁盘已用量百分比 默认展示当前区域内所有物理机的磁盘已用量百分比(平均值)
/ 磁盘用量 默认展示当前区域内所有物理机的磁盘用量(平均值)
/ 网卡入包速率 默认展示当前区域内所有物理机的网卡入包速率(平均值)
/ 网卡出包速率 默认展示当前区域内所有物理机的网卡出包速率(平均值)
/ 网卡入错误率 默认展示当前区域内所有物理机的网卡入错误率(平均值)
/ 网卡出错误率 默认展示当前区域内所有物理机的网卡出错误率(平均值)
/ CPU平均使用率 默认展示当前区域内所有物理机的CPU平均使用率(平均值)
/ 内存使用率 默认展示当前区域内所有物理机的内存使用率(平均值)
/ 磁盘读速度 默认展示当前区域内所有物理机的磁盘读速度(平均值)
/ 磁盘写速度 默认展示当前区域内所有物理机的磁盘写速度(平均值)
/ 网卡入速度 默认展示当前区域内所有物理机的网卡入速度(平均值)
/ 网卡出速度 默认展示当前区域内所有物理机的网卡出速度(平均值)
镜像服务器 / 镜像存储可用容量百分比 默认展示当前区域内所有镜像服务器的镜像存储可用容量百分比(平均值)
三层网络 / 已用IP数(IPv4) 默认展示当前区域内所有三层网络的已用IP数(IPv4)(平均值)
/ 已用IP百分比(IPv4) 默认展示当前区域内所有三层网络的已用IP百分比(IPv4)(平均值)
/ 可用IP数(IPv4) 默认展示当前区域内所有三层网络的可用IP数(IPv4)(平均值)
/ 可用IP百分比(IPv4) 默认展示当前区域内所有三层网络的可用IP百分比(IPv4)(平均值)
虚拟IP / 下行网络流量 默认展示当前区域内所有虚拟IP的下行网络流量(平均值)
/ 下行网络入包速率 默认展示当前区域内所有虚拟IP的下行网络入包速率(平均值)
/ 上行网络流量 默认展示当前区域内所有虚拟IP的上行网络流量(平均值)
/ 上行网络入包速率 默认展示当前区域内所有虚拟IP的上行网络入包速率(平均值)

自定义导出分析报表

可根据筛选条件导出相应资源的分析报表,支持导出报表全部信息或仅导出当前页面信息。其中云主机/VPC路由器支持自定义导出监控指标以及对应指标的平均值、最大值和最小值。

ZStack Cloud主菜单,点击平台运维 > 云平台监控 > 监控图表 > 性能分析,进入性能分析界面。以云主机为例,在资源报表页面,点击导出CSV,选择当前页全部,进入自定义导出页面。

图 2所示:
图 2. 自定义导出当前页面


  • 自定义导出页面展示当前所选的资源、监控方式、时间范围以及该资源支持的所有监控指标。
  • 自定义导出页面默认勾选监控报表已有监控指标的平均值,同时支持去勾选或勾选其他监控指标的平均值、最大值、最小值。
  • 支持一键全选或清空所有监控指标的平均值、最大值、最小值。

容量管理

通过可视化方式展示云平台核心资源的容量信息,方便用户掌控云平台容量使用情况,提高运维效率。

支持对云平台核心资源物理容量信息进行直观展示,包括:以卡片形式展示各种核心资源详细物理容量信息,以及核心资源容量TOP 10,方便用户整体掌控当前云平台核心资源物理容量使用情况,提高运维效率。

查看容量管理

ZStack Cloud主菜单,点击平台运维 > 云平台监控 > 监控图表 > 容量管理,进入容量管理界面。

图 1所示:
图 1. 容量管理


容量管理 | 概览

容量管理界面主要分为上下两个版块:
  • 上方版块:以卡片形式展示各种核心资源详细容量信息,包括:主存储、镜像服务器、管理节点、云主机、数据云盘、镜像、快照、计算节点。
  • 下方版块:对各种核心资源容量信息进行TOP 10排序,包括:物理机、主存储、镜像服务器、镜像、云主机、数据云盘、快照。
Note:
  • 本界面展示的资源容量信息均为资源的真实物理容量。
  • 本界面数据均为静态数据,每次刷新页面会获取最新数据。
  • 目前支持统计以下主存储类型:本地存储、SharedBlock、Ceph、Vhost、CBD。
  • 目前支持统计以下镜像服务器类型:镜像仓库、Ceph。

资源容量 | 卡片详情

支持以卡片形式展示各种核心资源详细容量信息,详情如下:
  • 主存储卡片:展示当前区域内主存储的容量使用详情。
    • 资源总览:展示当前区域内主存储的资源数量、已用容量和总容量,并以容量进度条直观展示主存储整体容量使用进度,不同颜色代表主存储内不同类型数据的容量占用,进度条下方标明剩余可用容量。
      • 资源数量:当前区域内所有主存储的总数量;
      • 已用容量:当前区域内所有主存储的已用容量之和;
      • 总容量:当前区域内所有主存储的总容量之和;
      • 剩余可用容量:当前区域内所有主存储的剩余可用容量之和。
    • 资源详情:展示主存储内不同类型数据的容量详情。
      数据类型 描述
      根云盘

      根云盘:云主机的系统云盘,用于支撑云主机的系统运行。

      根云盘容量:当前区域内所有根云盘的容量之和。

      数据云盘

      数据云盘:云主机使用的数据云盘,一般用于扩展的存储使用。

      数据云盘容量:当前区域内所有数据云盘的容量之和。

      镜像缓存

      镜像缓存:首次创建云主机/云盘时,会将镜像服务器中的镜像下载到主存储中作为镜像缓存。

      镜像缓存容量:当前区域内所有主存储中的镜像缓存容量之和。

      Trash

      Trash:跨主存储迁移云主机/云盘时,源主存储中残留的源文件。

      Trash容量:当前区域内所有主存储中的Trash容量之和。

      其它

      其它:主存储中存放的操作系统、日志和第三方软件等。

      其它容量:当前区域内所有主存储中的其它数据容量之和。

      Note: 不建议使用同一个物理磁盘部署多个本地存储,会导致主存储容量统计不准确。
  • 镜像服务器卡片:展示当前区域内镜像服务器的容量使用详情。
    • 资源总览:展示当前区域内镜像服务器的总数量、已用容量和总容量,并以容量进度条直观展示镜像服务器整体容量使用进度,不同颜色代表不同类型镜像服务器的容量占用,进度条下方标明剩余可用容量。
      • 资源数量:当前区域内所有镜像服务器的总数量;
      • 已用容量:当前区域内所有镜像服务器的已用容量之和;
      • 总容量:当前区域内所有镜像服务器的总容量之和;
      • 剩余可用容量:当前区域内所有镜像服务器的剩余可用容量之和。
    • 资源详情:展示不同类型镜像服务器内不同类型数据的容量详情。
      镜像服务器类型 数据类型 描述
      镜像仓库 镜像

      镜像:云主机或云盘所使用的镜像模板文件。

      镜像容量:当前区域内所有镜像仓库中的镜像容量之和。

      备份

      备份:将镜像仓库作为本地备份服务器时存储的备份文件。

      备份容量:当前区域内所有作为本地备份服务器的镜像仓库中的备份容量之和。

      Trash

      Trash:跨镜像仓库迁移镜像时,源镜像仓库中残留的源文件。

      Trash容量:当前区域内所有镜像仓库中的Trash容量之和。

      其它

      其它:镜像仓库中存放的操作系统、日志和第三方软件。

      其它容量:当前区域内所有镜像仓库中的其它数据容量之和。

      Ceph镜像服务器 镜像

      镜像:云主机或云盘所使用的镜像模板文件。

      镜像容量:当前区域内所有Ceph镜像服务器中的镜像容量之和。

      Trash

      Trash:跨Ceph镜像服务器迁移镜像时,源镜像服务器中残留的源文件。

      Trash容量:当前区域内所有Ceph镜像服务器中的Trash容量之和。

      其它

      其它:Ceph镜像服务器中存放的操作系统、日志和第三方软件等。

      其它容量:当前区域内所有Ceph镜像服务器中的其它数据容量之和。

  • 计算节点卡片:展示当前区域内计算节点的容量使用详情。
    • 云平台:当前区域内云平台系统文件占用所有计算节点磁盘的容量之和;
    • 其它:除云平台系统文件占用容量外,当前区域内所有计算节点磁盘的其它已用容量之和。
  • 云主机卡片:展示当前区域内云主机的容量使用详情。
    • 数量:当前区域内所有云主机的总数量;
    • 已用:当前区域内所有云主机根云盘的容量之和。
      Note: 根云盘容量统计数据仅包括云主机系统数据。
  • 数据云盘:展示当前区域内数据云盘的容量使用详情。
    • 数量:当前区域内所有数据云盘的总数量;
    • 已用:当前区域内所有数据云盘的容量之和。
  • 镜像:展示当前区域内镜像的容量使用详情。
    • 数量:当前区域内所有镜像的总数量;
    • 已用:当前区域内所有镜像的容量之和。
  • 快照:展示当前区域内快照的容量使用详情。
    • 数量:当前区域内所有快照的总数量;
      Note:
      • 快照数量统计数据包括:云主机快照、云盘快照;
      • 若存在快照组,将拆分为相应的云主机快照以及云主机加载的所有数据云盘快照分别统计数量。
    • 已用:当前区域内所有快照的容量之和。
      Note: 由于Ceph主存储上的快照不占用容量,相应快照容量不予统计。
  • 管理节点:展示当前云平台管理节点的容量使用详情。
    • 资源总览:展示当前云平台管理节点的已用容量和总容量,并以容量进度条直观展示管理节点整体容量使用进度,不同颜色代表管理节点内不同类型数据的容量占用,进度条下方标明剩余可用容量。
      • 单管理节点场景:
        • 已用容量:当前云平台管理节点的已用容量;
        • 总容量:当前云平台管理节点的总容量;
        • 剩余可用容量:当前云平台管理节点的剩余可用容量。
      • 双管理节点物理机高可用场景:
        • 已用容量:当前云平台所有管理节点的已用容量之和;
        • 总容量:当前云平台所有管理节点的总容量之和;
        • 剩余可用容量:当前云平台所有管理节点的剩余可用容量之和。
    • 资源详情:展示管理节点内不同类型数据的容量详情。
      数据类型 | 一级 数据类型 | 二级 描述
      云平台 管理节点日志

      管理节点日志:管理节点的操作日志文件。

      管理节点日志容量:
      • 单管理节点场景:

        当前云平台管理节点日志的容量。

      • 双管理节点物理机高可用场景:

        当前云平台所有管理节点日志的容量之和。

      数据库

      数据库:即管理节点数据库,用于存储和管理云平台所有的管理服务数据。

      数据库容量:
      • 单管理节点场景:

        当前云平台管理节点数据库占用的容量。

      • 双管理节点物理机高可用场景:

        当前云平台所有管理节点数据库占用的容量之和。

      数据库备份

      数据库备份:管理节点数据库的备份数据。

      数据库备份容量:
      • 单管理节点场景:

        当前云平台管理节点数据库备份占用的容量。

      • 双管理节点物理机高可用场景:

        当前云平台所有管理节点数据库备份占用的容量之和。

      监控

      监控:管理节点中存放的云平台监控数据和审计数据。

      监控容量:
      • 单管理节点场景:

        管理节点中存放的云平台监控数据和审计数据的容量。

      • 双管理节点物理机高可用场景:

        所有管理节点中存放的云平台监控数据和审计数据的容量之和。

      升级备份

      升级备份:云平台升级时,管理节点数据库和配置信息文件的备份数据。

      升级备份容量:
      • 单管理节点场景:

        当前云平台管理节点升级备份占用的容量。

      • 双管理节点物理机高可用场景:

        当前云平台所有管理节点升级备份占用的容量之和。

      其它 /

      其它:除云平台相关数据(管理节点日志、数据库、数据库备份、监控、升级备份)外,管理节点中存放的其它所有数据。

      其它容量:
      • 单管理节点场景:

        当前云平台管理节点中的其它数据容量。

      • 双管理节点物理机高可用场景:

        当前云平台所有管理节点中的其它数据容量之和。

管理节点监控

在多管理节点物理机高可用场景下,可直观查看每个管理节点的健康状态。

查看管理节点监控

ZStack Cloud主菜单,点击平台运维 > 云平台监控 > 监控图表 > 管理节点监控,进入管理节点监控界面。

图 1所示:
图 1. 管理节点监控


管理节点监控支持显示多个管理节点的管理节点IP、节点状态、VIP和管理服务状态,主要包括以下几种管理服务:
  • 仲裁IP是否可达:

    监控用于判断主备管理节点的仲裁IP是否可达,若不可达可能导致管理节点高可用功能失效。

  • 对端管理节点是否可达:

    监控备管理节点是否可达,若备管理节点不可达,无法与备管理节点通信。

  • VIP是否可达:

    监控VIP是否可达,若VIP不可达,主管理节点不能通过VIP访问UI界面。

  • 数据库状态:

    监控数据库状态,若数据库异常,可能存在数据丢失风险,请及时恢复故障。

注意事项

  • 此页面包括:绿色、红色、灰色三种颜色。其中,绿色表示正常;其他颜色均表示异常。若出现异常状态,请及时查找原因解决问题。
  • 双管理节点采用主备模式,主管理节点只有一个。显示VIP的为主管理节点,未显示VIP的均为备管理节点。
  • 若所有备管理节点状态异常,主管理节点故障后,无法切换且管理节点宕机。因此,若发现存在管理节点异常,请及时处理。

监控报警

监控报警功能支持对时序化数据和事件进行监控,并通过通知服务(SNS)推送报警消息至指定的通知对象。支持资源报警器、事件报警器和扩展报警器三种报警器类型,支持系统/邮箱/钉钉/企业微信/飞书/Webhook/短信/Microsoft Teams/SNMP Trap接收端通知对象类型,部分资源报警器需安装agent才能使用。

监控报警功能示意图如图 1所示:
图 1. 监控报警功能


功能框架

  • 监控系统
    监控系统提供以下功能:
    • 时序化监控:目前支持监控两种时序化数据类型:
      • 资源负载数据:例如云主机CPU使用率、物理机内存使用率等;
      • 资源容量数据:例如可用IP数量、运行中云主机的总数量等。
    • 事件收集:收集云平台中发生的预定义事件,例如物理机失联,云主机高可用功能启动等。
    • 报警功能:对时序化数据或事件进行报警。
    • 审计功能:记录所有操作并提供搜索。
    • 自定义功能:用户可自定义设置报警器和消息模板,并支持使用预先配置的报警模板和资源分组。
      • 报警器:目前支持以下报警器类型:
        • 资源报警器:对时序化数据进行报警。例如:对云主机CPU使用率设置一个报警器,当某云主机CPU使用率连续5分钟超过80%,以邮件方式报警。
        • 事件报警器:对事件进行报警,又称为事件订阅。例如:订阅物理机失联事件,当某个物理机失联后,以钉钉方式报警。
        • 扩展报警器:接收来自消息源的报警消息。例如:存储池降级,当某个Ceph企业版的存储池降级后,在云平台以系统方式报警。
      • 消息模板:报警器或事件向SNS系统的主题发送消息时使用的文本模板。
        • 系统自带一个报警消息和恢复消息默认模板,若用户没有创建模板,系统将使用自带模板。
        • 用户可以创建多个消息模板,但只能指定一个为默认模板,发送消息时只会使用默认模板格式化信息。
        • 模板中可以通过${}引用报警器或事件提供的变量。
        • 目前消息模板支持邮箱/钉钉/企业微信/飞书/Webhook/Microsoft Teams/短信七种通知对象平台。使用消息模板,可将通知邮件、钉钉消息、企业微信消息、飞书消息、Webhook消息、Microsoft Teams消息或短信以统一格式发出。
      • 消息源:用于连接扩展消息源,接管扩展报警消息并结合报警器统一推送至各类通知对象。方便报警消息统一管理的同时提高运维效率,目前支持接管Ceph企业版的报警消息。
      • 报警模板:一组报警器规则的通用模板,关联资源分组后,将对组内资源创建相应的报警器进行监控。
      • 资源分组:按照业务对资源进行分组,关联报警模板后,报警规则将直接作用于组内全部资源。
  • 通知服务(SNS)

    通知服务将报警消息推送至通知对象,通知对象类型包括:系统/邮箱/钉钉/企业微信/飞书/Webhook/短信/Microsoft Teams/SNMP Trap接收端。

    通知对象设置:
    • 系统默认提供一个系统类型通知对象,若报警器绑定系统类型通知对象,UI界面右上角的最近消息按钮处会出现弹窗提醒。
    • 用户也可自行创建邮箱/钉钉/企业微信/飞书/Webhook/短信/Microsoft Teams/SNMP Trap接收端类型通知对象。

功能优势

ZStack Cloud监控报警系统具有以下功能优势:
  • 提供丰富的报警监控条目,对云平台核心资源以及事件进行全面监控报警;
  • 支持系统/邮箱/钉钉/企业微信/飞书/Webhook/短信/Microsoft Teams/SNMP Trap接收端通知对象用于订阅主题,用户可根据实际情况选择合适的报警接收方式;
  • 一个报警器可同时对多个资源进行监控;
  • 邮箱、钉钉、企业微信、飞书、Webhook、短信和Microsoft Teams通知对象支持自定义报警消息模板,用户可按需设置报警消息模板,从报警消息中快速定位关键信息。
  • 支持创建一组报警器规则的通用模板,关联资源分组后,将对组内资源创建相应的报警器进行监控。

应用场景

监控报警功能对云平台核心资源以及事件进行监控,并设置报警接收机制。当核心资源出现异常,监控报警控工将按照报警级别发出实时响应,帮助运维人员快速定位解决问题。

全局设置

  • 监控数据在本地默认保留6个月,在基本设置中可自定义设置监控数据保留周期,设置方法如下:

    设置 > 全局设置 > 基本设置页面,可设置监控数据保留周期,默认为6,单位为月,可设置1到12之间的整数。

  • 监控数据在本地默认保留50GB,在基本设置中可自定义设置监控数据保留大小,设置方法如下:

    设置 > 全局设置 > 基本设置页面,可设置监控数据保留大小,默认为50GB,建议按需设置。

  • ZStack Cloud支持接收扩展报警消息,需要在设置 > 全局设置 > 高级设置中开启扩展报警开关,才能使用扩展报警器功能。

报警器

创建报警器

ZStack Cloud主菜单,点击平台运维 > 云平台监控 > 报警服务 > 报警器,进入报警器界面,点击创建报警器,弹出创建报警器界面。

创建报警器分为以下场景:
  • 创建资源报警器
  • 创建事件报警器
  • 创建扩展报警器

创建资源报警器

除了系统提供的默认资源报警器,用户可根据自己的需求自定义创建资源报警器。在资源报警器界面,点击创建资源报警器,弹出创建资源报警器界面。

可参考以下示例输入相应内容:
  • 名称:设置资源报警器名称
  • 简介:可选项,可留空不填
  • 资源类型:选择资源类型, 包括:云主机、裸金属主机、弹性裸金属实例、VPC路由器、镜像、镜像服务器、系统数据目录、物理机、三层网络、云盘、虚拟IP、主存储、监听器、管理节点、项目资源、CDP任务

    其中,项目资源需拥有租户管理模块许可证,CDP任务需拥有持续数据保护(CDP)模块许可证。

  • 报警条目:根据所选资源类型,按需选择报警条目
    Note:
    • 每种资源类型对应多种报警条目,可前往监控报警功能使用教程附录章节查看报警条目及其描述。
    • 某些报警条目选择后,可能需要继续填写其他参数信息,请按需设置;
    • 某些报警条目需要安装agent才能使用,请按需设置。agent安装方法请参考内部监控章节;
    • 对于内存数据而言,内部监控比外部监控拥有更好的准确性,推荐在监控内存数据时使用内部监控。
    • 核心资源可以从资源详情页入口创建资源报警器,如云主机、物理机、主存储等。
  • 报警范围:选择所选资源类型对应的资源,支持单选和批量选择
    • 对批量资源创建报警器,该报警器对其下挂载的批量资源进行监控,其中任一资源满足报警条件,即可触发报警。
    • 对单个资源创建报警器,该报警器对其下挂载的单个资源进行监控,该资源满足报警条件,即可触发报警。
      Note:
      • 支持对单个资源细粒度的监控报警;
      • 例如:支持对某一云主机的某一个CPU的使用率进行监控报警。
  • 报警器触发规则:选择报警判断类型并输入阈值和持续时间
  • 报警间隔:选择报警间隔类型
    • 仅一次
      • 该报警器下同一资源的一次性报警。
        例如:
        • 该报警器挂载多个资源(其中任一资源满足报警条件即可触发报警),其中某一资源触发一次报警后继续满足报警条件,该报警器将不再报警。

          若该报警器挂载单个资源(该资源满足报警条件即可触发报警),该资源触发一次报警后继续满足报警条件,该报警器将不再报警。

      • 通知对象(若指定)将收到一次性报警的报警消息,消息中心将显示一次性报警的消息记录。
      • 若该资源恢复正常后再次满足报警条件,该报警器将再次触发一次性报警。
    • 重复报警
      • 该报警器下同一资源的多次重复报警。
        例如:
        • 该报警器挂载多个资源(其中任一资源满足报警条件即可触发报警),其中某一资源触发一次报警后继续满足报警条件,该报警器将遵循指定的报警策略多次重复报警。

          该报警器挂载单个资源(该资源满足报警条件即可触发报警),该资源触发一次报警后继续满足报警条件,该报警器将遵循指定的报警策略多次重复报警。

      • 通知对象(若指定)将收到每次报警的报警消息,消息中心将显示每次报警的消息记录。
  • 报警级别:支持设置报警级别,包括:紧急、严重、提示,不同级别的报警器将会发出对应级别的报警消息
  • 报警恢复通知:可选项,若开启,当该报警器监控的任一资源从报警状态恢复,则会接收到一次恢复通知。恢复通知按照默认恢复消息模板发送,消息内容可在报警消息模板页面进行自定义设置
  • 通知对象:可选项,不填表示不指定通知对象;若填写,报警消息将会发送到指定的通知对象
    Note:
    • 支持添加多个通知对象。
    • 可选择系统默认的通知对象,也可用户自定义创建。
图 1所示:
图 1. 创建资源报警器


创建事件报警器

除了系统提供的默认事件报警器,用户可根据自己的需求自定义创建事件报警器。在事件报警器界面,点击创建事件报警器,弹出创建事件报警器界面。

可参考以下示例输入相应内容:
  • 资源类型:选择资源类型,包括:云主机、路由器、镜像服务器、管理节点、物理机、主存储、vCenter、备份任务、项目资源、CDP任务

    其中,项目资源需拥有租户管理模块许可证,CDP任务需拥有持续数据保护(CDP)模块许可证。

  • 报警条目:根据所选资源类型,按需选择报警条目
  • 报警级别:支持设置报警级别,包括:紧急、严重、提示,不同级别的报警器将会发出对应级别的报警消息
  • 通知对象:可选项,不填表示不指定通知对象;若填写,报警消息将会发送到指定的通知对象
    Note:
    • 支持添加多个通知对象。
    • 可选择系统默认的通知对象,也可用户自定义创建。
图 2所示:
图 2. 创建事件报警器


Note:
  • 事件报警器仅事件发生时触发一次,不支持设置重复报警。
  • 事件报警器监控的任一资源从报警状态恢复时,会发送一次报警恢复消息,用户可在报警消息模板中自定义恢复消息文本。
  • 若该事件恢复正常后再次满足报警条件,该报警器将再次触发一次性报警。

创建扩展报警器

需要在设置 > 平台设置 > 全局设置 > 高级设置中开启扩展报警开关全局设置,才能使用扩展报警器功能。
创建扩展报警器即可接收来自扩展的报警消息。在扩展报警器界面,点击创建扩展报警器,在弹出的创建扩展报警器界面,可参考以下示例输入相应内容:
  • 名称:设置扩展报警器的名称
  • 消息源:选择需要接收扩展消息的消息源
  • 通知对象:可选项,不填表示不指定通知对象;若填写,报警消息将会发送到指定的通知对象
    Note:
    • 支持添加多个通知对象。
    • 可选择系统默认的通知对象,也可用户自定义创建。
图 3所示:
图 3. 创建扩展报警器


管理报警器

ZStack Cloud主菜单,点击平台运维 > 云平台监控 > 报警服务 > 报警器,进入报警器界面。

报警器支持以下操作:
操作 描述
创建资源报警器 创建一个新的资源报警器。
启用资源报警器 将停止状态的资源报警器启用。
停用资源报警器 将正在使用的资源报警器停用。
编辑资源报警器 修改资源报警器的名称和简介。
添加通知对象 给选中的资源报警器添加通知对象。
移除通知对象 将通知对象从资源报警器移除。
删除 删除一个资源报警器,删除报警器的同时将移除其上所有资源并不再报警,请谨慎操作。
操作 描述
创建事件报警器 创建一个新的事件报警器。
启用事件报警器 将停止状态的事件报警器启用。
停用事件报警器 将正在使用的事件报警器停用。
添加通知对象 给选中的事件报警器添加通知对象。
移除通知对象 将通知对象从事件报警器移除。
删除 删除一个事件报警器,删除报警器的同时将移除其上所有资源并不再报警,请谨慎操作。
操作 描述
创建扩展报警器 创建一个新的扩展报警器。
编辑扩展报警器 修改扩展报警器的名称和简介。
添加通知对象 给选中的扩展报警器添加通知对象。
移除通知对象 将通知对象从扩展报警器移除。
删除 删除一个扩展报警器,删除报警器后将不再接收扩展报警消息,请谨慎操作。

一键报警

将种类繁多的资源监控项进行归纳整合,用于快速建立各种资源的监控报警服务。

支持以下三种一键报警场景:
  • 物理机
  • 云主机
  • VPC路由器

物理机一键报警

开启后会根据设定CPU使用率、磁盘使用率、内存使用率相关报警规则触发报警,作用于全部物理机,包括以下条目:
  • 物理机平均CPU使用率 ≥ 80%, 持续5分钟
  • 物理机全部磁盘已使用容量百分比 ≥ 80%, 持续5分钟
  • 物理机内存使用百分比 ≥ 80%, 持续5分钟

云主机一键报警

开启后会根据设定CPU使用率、磁盘使用率、内存使用率相关报警规则触发报警,作用于全部云主机,包括以下条目:
  • 云主机全部磁盘已使用容量百分比(需安装agent) ≥ 80%, 持续5分钟
  • 云主机内存已用百分比(需安装agent) ≥ 80%, 持续5分钟
  • 云主机CPU平均使用率(需安装agent) ≥ 80%, 持续5分钟
  • 云主机平均CPU使用率 ≥ 80%, 持续5分钟
  • 云主机内存已用百分比 ≥ 80%, 持续5分钟

VPC路由器一键报警

开启后会根据设定CPU使用率、磁盘使用率、内存使用率相关报警规则触发报警,作用于全部VPC路由器,包括以下条目:
  • VPC路由器全部磁盘已使用容量百分比 ≥ 80%, 持续5分钟
  • VPC路由器平均CPU使用率 ≥ 80%, 持续5分钟
  • VPC路由器内存已用百分比 ≥ 80%, 持续5分钟

管理一键报警

ZStack Cloud主菜单,点击平台运维 > 云平台监控 > 报警服务 > 一键报警,进入一键报警界面。

一键报警支持以下操作:
操作 描述
开启一键报警 开启所选资源一键报警功能,系统将自动创建相应报警器。
关闭一键报警 关闭所选资源一键报警功能,系统将自动删除相应报警器。
启用报警规则 将停用状态的报警规则启用。
停用报警规则 将启用状态的报警规则停用。
修改报警规则 修改报警器的报警规则。

报警模板

创建报警模板

ZStack Cloud主菜单,点击平台运维 > 云平台监控 > 报警服务 > 报警模板,进入报警模板界面,点击创建报警模板,弹出创建报警模板界面。

可参考以下示例输入相应内容:
  • 名称:设置报警模板的名称
  • 简介:可选项,可留空不填
  • 资源类型:点击添加报警规则,可为报警模板添加对应的报警规则详细信息
    • 报警类型:可选择资源报警规则和事件报警规则
    • 资源类型:支持选择以下资源类型
      • 资源报警规则类型包括:云主机、裸金属主机、弹性裸金属实例、VPC路由器、镜像服务器、物理机、三层网络、虚拟IP、主存储、监听器、许可证。
      • 事件报警规则类型包括:云主机、VPC路由器、镜像服务器、物理机、主存储。
    • 添加规则:为所选资源设置相应的报警规则
图 1所示:
图 1. 创建报警模板


管理报警模板

ZStack Cloud主菜单,点击平台运维 > 云平台监控 > 报警服务 > 报警模板,进入报警模板界面。

报警模板支持以下操作:
操作 描述
绑定标签 为报警模板绑定标签。
解绑标签 解绑报警模板上的标签。
设置共享 设置当前报警模板的共享模式。
克隆 基于当前报警模板,克隆完全相同的报警模板。
绑定资源分组 为当前报警模板绑定资源分组。
Note: 一个报警模板可以绑定多个资源分组。
解绑资源分组 解绑报警模板上的资源分组。
修改报警规则 修改报警模板中的报警规则。
同步规则到分组 修改报警规则后,将最新的报警规则应用到已绑定的资源分组并直接生效,资源分组上已有的报警规则将被覆盖。
删除 删除报警模板,将解除与资源分组的绑定关系,已生成的报警器不受影响。

资源分组

创建资源分组

ZStack Cloud主菜单,点击平台运维 > 云平台监控 > 报警服务 > 资源分组,进入资源分组界面,点击创建资源分组,弹出创建资源分组界面。

可参考以下示例输入相应内容:
  • 名称:设置资源分组的名称
  • 简介:可选项,可留空不填
  • 资源:选择需要添加到资源分组中的资源
  • 规则模板:可选项,可为资源分组绑定一个规则模板,应用于组内全部资源,也可在创建完成后进行绑定
    Note: 一个资源分组只能关联一个规则模板。
  • 通知对象:可选项,不填表示不指定通知对象;若填写,报警消息将会发送到指定的通知对象
    Note:
    • 支持添加多个通知对象。
    • 可选择系统默认的通知对象,也可用户自定义创建。
图 1所示:
图 1. 创建资源分组


管理资源分组

ZStack Cloud主菜单,点击平台运维 > 云平台监控 > 报警服务 > 资源分组,进入资源分组界面。

资源分组支持以下操作:
操作 描述
绑定标签 为资源分组绑定标签。
解绑标签 解绑资源分组上的标签。
设置规则模板 为当前资源分组绑定规则模板。
Note: 一个规则模板可以绑定多个资源分组。
同步报警模板规则 同步已绑定报警模板中的最新报警规则。
Note: 同步后,新规则将直接生效,并覆盖资源分组上的原有规则。
删除 删除资源分组,将同步删除组内资源关联的报警器,请谨慎操作。

消息模板

创建消息模板

ZStack Cloud主菜单,点击平台运维 > 云平台监控 > 报警配置 > 消息模板,进入消息模板界面,点击创建消息模板,弹出创建消息模板界面。

创建邮箱消息模板

邮箱消息模板需遵循Text语法要求,可参考以下示例输入相应内容:
  • 名称:设置消息模板名称
  • 简介:可选项,可留空不填
  • 类型:选择邮箱
  • 报警类型:选择该模板适用的报警类型,包括资源报警事件报警
  • 报警消息标题:设置报警消息标题模板。系统提供模板示例,用户可参考此示例,填写所需的标题信息:
    • 资源报警-标题模板示例:
      报警器 ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR} ${ALARM_THRESHOLD} ${ALARM_CURRENT_STATUS}
    • 事件报警-标题模板示例:
      报警 ${EVENT_NAME} 发生了
  • 报警消息文本:设置报警消息内容模板。系统提供模板示例,示例包含了报警消息可展示的全部信息项,用户可参考示例按需填写:
    • 资源报警-文本模板示例:
      报警器 ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR} ${ALARM_THRESHOLD} ${ALARM_CURRENT_STATUS}
        
      报警器详情:
      UUID: ${ALARM_UUID}
      资源类型: ${ALARM_NAMESPACE}
      触发条件: ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR} ${ALARM_THRESHOLD}
      触发条件持续时间: ${ALARM_DURATION} seconds
      报警触发时间: ${ALARM_TIME}
      报警级别: ${ALARM_EMERGENCY_LEVEL}
      先前状态: ${ALARM_PREVIOUS_STATUS}
      当前值: ${ALARM_CURRENT_VALUE}
      标签: ${ALARM_LABELS.join(",")}
      报警资源IP: ${ALARM_RESOURCE_IP}
      所属集群UUID: ${ALARM_RESOURCE_CLUSTER_UUID}
      所属集群名称: ${ALARM_RESOURCE_CLUSTER_NAME}
    • 事件报警-文本模板示例:
      报警 ${EVENT_NAME} 发生了
        
      事件详情:
      名称: ${EVENT_NAME}
      资源类型: ${EVENT_NAMESPACE}
      报警级别: ${EVENT_EMERGENCY_LEVEL}
      资源UUID: ${EVENT_RESOURCE_ID}
      资源名称: ${EVENT_RESOURCE_NAME}
      报警触发时间: ${EVENT_TIME}
      事件订阅UUID: ${EVENT_SUBSCRIPTION_UUID}
      错误(如果没有错误时为空): ${EVENT_ERROR}
      报警资源IP: ${EVENT_RESOURCE_IP}
      所属集群UUID: ${EVENT_RESOURCE_CLUSTER_UUID}
      所属集群名称: ${EVENT_RESOURCE_CLUSTER_NAME}
  • 恢复消息标题:资源报警器在监控资源从报警状态恢复时,可向通知对象发送一次恢复通知。此项用于设置恢复消息的标题模板。系统提供模板示例,用户可参考此示例,填写所需的标题信息:
    报警器 ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR} ${ALARM_THRESHOLD} ${ALARM_CURRENT_STATUS}
  • 恢复消息文本:设置恢复消息的内容模板。系统提供模板示例,示例包含了恢复消息可展示的全部信息项,用户可参考示例按需填写:
    报警器 ${ALARM_NAME} ${TITLE_ALARM_RESOURCE_NAME}${ALARM_CURRENT_STATUS}
      
    报警恢复详情: 
    UUID: ${ALARM_UUID}
    资源类型: ${ALARM_NAMESPACE}
    恢复条件: ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR_REVERSE} ${ALARM_THRESHOLD}
    报警级别: ${ALARM_EMERGENCY_LEVEL}
    先前状态: ${ALARM_PREVIOUS_STATUS}
    当前值: ${ALARM_CURRENT_VALUE}
    报警资源UUID: ${ALARM_RESOURCE_ID}
    报警资源名称: ${ALARM_RESOURCE_NAME}
    报警资源IP: ${ALARM_RESOURCE_IP}
    所属集群UUID: ${ALARM_RESOURCE_CLUSTER_UUID}
    所属集群名称: ${ALARM_RESOURCE_CLUSTER_NAME}
  • 默认模板:选择是否将该模板设置为默认模板,设置后,所有邮件消息将按该模板格式发出
图 1所示:
图 1. 创建邮箱消息模板


创建阿里云短信消息模板

阿里云短信消息模板适用于阿里云短信通知对象。创建前,请在阿里云完成短信签名和短信模板申请。申请的短信模板请与ZStack Cloud短信消息模板示例一致,如资源报警消息模板示例事件报警消息模板示例所示。

可参考以下示例输入相应内容:
  • 名称:设置消息模板名称
  • 简介:可选项,可留空不填
  • 类型:选择阿里云短信
  • 签名名称:输入在阿里云申请的短信签名名称
  • 资源报警-消息模板:设置资源报警消息模板,系统提供模板示例,用户可参考示例选择所需信息:
    报警器: ${ALARM_NAME},资源名称: ${ALARM_RESOURCE_NAME},触发条件: ${ALARM_CONDITION},报警级别: ${ALARM_EMERGENCY_LEVEL},当前值: ${ALARM_CURRENT_VALUE}
  • 资源报警-模板CODE:输入资源报警模板CODE
  • 事件报警-消息模板:设置事件报警消息模板,系统提供模板示例,用户可参考示例选择所需信息:
    事件名称: ${EVENT_NAME},资源名称: ${EVENT_RESOURCE_NAME},报警级别: ${EVENT_EMERGENCY_LEVEL},错误: ${EVENT_ERROR}
  • 事件报警-模板CODE:输入事件报警模板CODE
  • 默认模板:选择是否将该模板设置为默认模板,设置后,所有短信将按该模板格式发出
图 2所示:
图 2. 创建阿里云短信消息模板


创建通用短信消息模板

通用短信模板适用于除阿里云以外的其他短信通知对象,例如亿美软通短信通知对象。

可参考以下示例输入相应内容:
  • 名称:设置消息模板名称
  • 简介:可选项,可留空不填
  • 类型:选择通用短信
  • 报警类型:选择该模板适用的报警类型,包括资源报警事件报警
  • 资源报警-消息模板:设置资源报警消息模板,系统提供模板示例,用户可参考示例选择所需信息:
    报警器: ${ALARM_NAME},资源名称: ${ALARM_RESOURCE_NAME},报警级别: ${ALARM_EMERGENCY_LEVEL},当前值: ${ALARM_CURRENT_VALUE}
  • 事件报警-消息模板:设置事件报警消息模板,系统提供模板示例,用户可参考示例选择所需信息:
    事件名称: ${EVENT_NAME},资源名称: ${EVENT_RESOURCE_NAME},报警级别: ${EVENT_EMERGENCY_LEVEL},错误: ${EVENT_ERROR}
    Note: 基于合规性要求,填写时,请在提供的示例模板前添加一个【】字段,以确保短信正常发送。【】中可填写公司名称或其他自定义信息,例如:【CompanyName】
  • 默认模板:选择是否将该模板设置为默认模板,设置后,所有短信将按该模板格式发出
图 3所示:
图 3. 创建通用短信消息模板


创建钉钉消息模板

钉钉消息模板需遵循Markdown语法规则,可参考以下示例输入相应内容:
  • 名称:设置消息模板名称
  • 简介:可选项,可留空不填
  • 类型:选择钉钉
  • 报警类型:选择该模板适用的报警类型,包括资源报警事件报警
  • 报警消息标题:设置报警消息标题模板。系统提供模板示例,用户可参考此示例,填写所需的标题信息:
    • 资源报警-标题模板示例:
      报警器 ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR} ${ALARM_THRESHOLD} ${ALARM_CURRENT_STATUS}
    • 事件报警-标题模板示例:
      报警 ${EVENT_NAME} 发生了
  • 报警消息文本:设置报警消息内容模板。系统提供模板示例,示例包含了报警消息可展示的全部信息项,用户可参考示例按需填写:
    • 资源报警-文本模板示例:
      ## 报警器详情:
      - UUID: ${ALARM_UUID}
      - 资源类型: ${ALARM_NAMESPACE}
      - 触发条件: ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR} ${ALARM_THRESHOLD}
      - 触发条件持续时间: ${ALARM_DURATION} seconds
      - 报警触发时间: ${ALARM_TIME}
      - 报警级别: ${ALARM_EMERGENCY_LEVEL}
      - 先前状态: ${ALARM_PREVIOUS_STATUS}
      - 当前值: ${ALARM_CURRENT_VALUE}
      - 标签: ${ALARM_LABELS.join(",")}
      - 报警资源IP: ${ALARM_RESOURCE_IP}
      - 所属集群UUID: ${ALARM_RESOURCE_CLUSTER_UUID}
      - 所属集群名称: ${ALARM_RESOURCE_CLUSTER_NAME}
    • 事件报警-文本模板示例:
      ## 事件详情:
      - 名称: ${EVENT_NAME}
      - 资源类型: ${EVENT_NAMESPACE}
      - 报警级别: ${EVENT_EMERGENCY_LEVEL}
      - 资源UUID: ${EVENT_RESOURCE_ID}
      - 资源名称: ${EVENT_RESOURCE_NAME}
      - 报警触发时间: ${EVENT_TIME}
      - 事件订阅UUID: ${EVENT_SUBSCRIPTION_UUID}
      - 错误(如果没有错误时为空): ${EVENT_ERROR}
      - 报警资源IP: ${EVENT_RESOURCE_IP}
      - 所属集群UUID: ${EVENT_RESOURCE_CLUSTER_UUID}
      - 所属集群名称: ${EVENT_RESOURCE_CLUSTER_NAME}
  • 恢复消息标题:资源报警器在监控资源从报警状态恢复时,可向通知对象发送一次恢复通知。此项用于设置恢复消息的标题模板。系统提供模板示例,用户可参考此示例,填写所需的标题信息:
    报警器 ${ALARM_NAME} ${TITLE_ALARM_RESOURCE_NAME}${ALARM_CURRENT_STATUS}
  • 恢复消息文本:设置恢复消息的内容模板。系统提供模板示例,示例包含了恢复消息可展示的全部信息项,用户可参考示例按需填写:
    ## 报警恢复详情:
    - UUID: ${ALARM_UUID}
    - 资源类型: ${ALARM_NAMESPACE}
    - 恢复条件: ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR_REVERSE} ${ALARM_THRESHOLD}
    - 报警级别:${ALARM_EMERGENCY_LEVEL}
    - 先前状态:${ALARM_PREVIOUS_STATUS}
    - 当前值:${ALARM_CURRENT_VALUE}
    - 报警资源UUID:${ALARM_RESOURCE_ID}
    - 报警资源名称:${ALARM_RESOURCE_NAME}
    - 报警资源IP:${ALARM_RESOURCE_IP}
    - 所属集群UUID: ${ALARM_RESOURCE_CLUSTER_UUID}
    - 所属集群名称: ${ALARM_RESOURCE_CLUSTER_NAME}
  • 默认模板:选择是否将该模板设置为默认模板,设置后,所有钉钉消息将按该模板格式发出
图 4所示:
图 4. 创建钉钉消息模板


创建飞书消息模板

飞书消息模板需遵循Text语法规则,可参考以下示例输入相应内容:
  • 名称:设置消息模板名称
  • 简介:可选项,可留空不填
  • 类型:选择飞书
  • 报警类型:选择该模板适用的报警类型,包括资源报警事件报警
  • 报警消息标题:设置报警消息标题模板。系统提供模板示例,用户可参考此示例,填写所需的标题信息:
    • 资源报警-标题模板示例:
      报警器 ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR} ${ALARM_THRESHOLD} ${ALARM_CURRENT_STATUS}
    • 事件报警-标题模板示例:
      报警 ${EVENT_NAME} 发生了
  • 报警消息文本:设置报警消息内容模板。系统提供模板示例,示例包含了报警消息可展示的全部信息项,用户可参考示例按需填写:
    • 资源报警-文本模板示例:
      报警器详情:
      UUID: ${ALARM_UUID}
      资源类型: ${ALARM_NAMESPACE}
      触发条件: ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR} ${ALARM_THRESHOLD}
      触发条件持续时间: ${ALARM_DURATION} seconds
      报警触发时间: ${ALARM_TIME}
      报警级别: ${ALARM_EMERGENCY_LEVEL}
      先前状态: ${ALARM_PREVIOUS_STATUS}
      当前值: ${ALARM_CURRENT_VALUE}
      标签: ${ALARM_LABELS.join(",")}
      报警资源IP: ${ALARM_RESOURCE_IP}
      所属集群UUID: ${ALARM_RESOURCE_CLUSTER_UUID}
      所属集群名称: ${ALARM_RESOURCE_CLUSTER_NAME}
    • 事件报警-文本模板示例:
      事件详情:
      名称: ${EVENT_NAME}
      资源类型: ${EVENT_NAMESPACE}
      报警级别: ${EVENT_EMERGENCY_LEVEL}
      资源UUID: ${EVENT_RESOURCE_ID}
      资源名称: ${EVENT_RESOURCE_NAME}
      报警触发时间: ${EVENT_TIME}
      事件订阅UUID: ${EVENT_SUBSCRIPTION_UUID}
      错误(如果没有错误时为空): ${EVENT_ERROR}
      报警资源IP: ${EVENT_RESOURCE_IP}
      所属集群UUID: ${EVENT_RESOURCE_CLUSTER_UUID}
      所属集群名称: ${EVENT_RESOURCE_CLUSTER_NAME}
  • 恢复消息标题:资源报警器在监控资源从报警状态恢复时,可向通知对象发送一次恢复通知。此项用于设置恢复消息的标题模板。系统提供模板示例,用户可参考此示例,填写所需的标题信息:
    报警器 ${ALARM_NAME} ${TITLE_ALARM_RESOURCE_NAME}${ALARM_CURRENT_STATUS}
  • 恢复消息文本:设置恢复消息的内容模板。系统提供模板示例,示例包含了恢复消息可展示的全部信息项,用户可参考示例按需填写:
    报警恢复详情:
    UUID: ${ALARM_UUID}
    资源类型:  ${ALARM_NAMESPACE}
    恢复条件:  ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR_REVERSE} ${ALARM_THRESHOLD}
    报警级别: ${ALARM_EMERGENCY_LEVEL}
    先前状态: ${ALARM_PREVIOUS_STATUS}
    当前值: ${ALARM_CURRENT_VALUE}
    报警资源UUID: ${ALARM_RESOURCE_ID}
    报警资源名称: ${ALARM_RESOURCE_NAME}
    报警资源IP: ${ALARM_RESOURCE_IP}
    所属集群UUID: ${ALARM_RESOURCE_CLUSTER_UUID}
    所属集群名称: ${ALARM_RESOURCE_CLUSTER_NAME}
  • 默认模板:选择是否将该模板设置为默认模板,设置后,所有飞书消息将按该模板格式发出
图 5所示:
图 5. 创建飞书消息模板


创建企业微信消息模板

企业微信消息模板需遵循Markdown语法规则,可参考以下示例输入相应内容:
  • 名称:设置消息模板名称
  • 简介:可选项,可留空不填
  • 类型:选择企业微信
  • 报警类型:选择该模板适用的报警类型,包括资源报警事件报警
  • 报警消息标题:设置报警消息标题模板。系统提供模板示例,用户可参考此示例,填写所需的标题信息:
    • 资源报警-标题模板示例:
      报警器 ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR} ${ALARM_THRESHOLD} ${ALARM_CURRENT_STATUS}
    • 事件报警-标题模板示例:
      报警 ${EVENT_NAME} 发生了
  • 报警消息文本:设置报警消息内容模板。系统提供模板示例,示例包含了报警消息可展示的全部信息项,用户可参考示例按需填写:
    • 资源报警-文本模板示例:
      ## 报警器详情:
      - UUID: ${ALARM_UUID}
      - 资源类型: ${ALARM_NAMESPACE}
      - 触发条件: ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR} ${ALARM_THRESHOLD}
      - 触发条件持续时间: ${ALARM_DURATION} seconds
      - 报警触发时间: ${ALARM_TIME}
      - 报警级别: ${ALARM_EMERGENCY_LEVEL}
      - 先前状态: ${ALARM_PREVIOUS_STATUS}
      - 当前值: ${ALARM_CURRENT_VALUE}
      - 标签: ${ALARM_LABELS.join(",")}
      - 报警资源IP: ${ALARM_RESOURCE_IP}
      - 所属集群UUID: ${ALARM_RESOURCE_CLUSTER_UUID}
      - 所属集群名称: ${ALARM_RESOURCE_CLUSTER_NAME}
    • 事件报警-文本模板示例:
      ## 事件详情:
      - 名称: ${EVENT_NAME}
      - 资源类型: ${EVENT_NAMESPACE}
      - 报警级别: ${EVENT_EMERGENCY_LEVEL}
      - 资源UUID: ${EVENT_RESOURCE_ID}
      - 资源名称: ${EVENT_RESOURCE_NAME}
      - 报警触发时间: ${EVENT_TIME}
      - 事件订阅UUID: ${EVENT_SUBSCRIPTION_UUID}
      - 错误(如果没有错误时为空): ${EVENT_ERROR}
      - 报警资源IP: ${EVENT_RESOURCE_IP}
      - 所属集群UUID: ${EVENT_RESOURCE_CLUSTER_UUID}
      - 所属集群名称: ${EVENT_RESOURCE_CLUSTER_NAME}
  • 恢复消息标题:资源报警器在监控资源从报警状态恢复时,可向通知对象发送一次恢复通知。此项用于设置恢复消息的标题模板。系统提供模板示例,用户可参考此示例,填写所需的标题信息:
    报警器 ${ALARM_NAME} ${TITLE_ALARM_RESOURCE_NAME}${ALARM_CURRENT_STATUS}
  • 恢复消息文本:设置恢复消息的内容模板。系统提供模板示例,示例包含了恢复消息可展示的全部信息项,用户可参考示例按需填写:
    ## 报警恢复详情:
    - UUID: ${ALARM_UUID}
    - 资源类型: ${ALARM_NAMESPACE}
    - 恢复条件: ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR_REVERSE} ${ALARM_THRESHOLD}
    - 报警级别:${ALARM_EMERGENCY_LEVEL}
    - 先前状态:${ALARM_PREVIOUS_STATUS}
    - 当前值:${ALARM_CURRENT_VALUE}
    - 报警资源UUID:${ALARM_RESOURCE_ID}
    - 报警资源名称:${ALARM_RESOURCE_NAME}
    - 报警资源IP:${ALARM_RESOURCE_IP}
    - 所属集群UUID: ${ALARM_RESOURCE_CLUSTER_UUID}
    - 所属集群名称: ${ALARM_RESOURCE_CLUSTER_NAME}
  • 默认模板:选择是否将该模板设置为默认模板,设置后,所有企业微信消息将按该模板格式发出
图 6所示:
图 6. 创建企业微信消息模板


创建Webhook消息模板

Webhook消息模板需遵循JSON语法规则,可参考以下示例输入相应内容:
  • 名称:设置消息模板名称
  • 简介:可选项,可留空不填
  • 类型:选择Webhook
  • 报警类型:选择该模板适用的报警类型,包括资源报警事件报警
  • 报警消息标题:设置报警消息标题模板。系统提供模板示例,用户可参考此示例,填写所需的标题信息:
    • 资源报警-标题模板示例:
      报警器 ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR} ${ALARM_THRESHOLD} ${ALARM_CURRENT_STATUS}
    • 事件报警-标题模板示例:
      报警 ${EVENT_NAME} 发生了
  • 报警消息文本:设置报警消息内容模板。系统提供模板示例,示例包含了报警消息可展示的全部信息项,用户可参考示例按需填写:
    • 资源报警-文本模板示例:
      {
        "facts": [
          {
            "name": "报警器详情",
            "value": null
          },
          {
            "name": "UUID",
            "value": "${ALARM_UUID}"
          },
          {
            "name": "资源类型",
            "value": "${ALARM_NAMESPACE}"
          },
          {
            "name": "触发条件",
            "value": "${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR} ${ALARM_THRESHOLD}"
          },
          {
            "name": "触发条件持续时间",
            "value": "${ALARM_DURATION} seconds"
          },
          {
            "name": "先前状态",
            "value": "${ALARM_PREVIOUS_STATUS}"
          },
          {
            "name": "当前值",
            "value": "${ALARM_CURRENT_VALUE}"
          },
          {
            "name": "报警资源UUID",
            "value": "${ALARM_RESOURCE_ID}"
          },
          {
            "name": "报警触发时间",
            "value": "${ALARM_TIME}"
          },
          {
            "name": "报警资源名称",
            "value": "${ALARM_RESOURCE_NAME}"
          },
          {
            "name": "报警级别",
            "value": "${ALARM_EMERGENCY_LEVEL}"
          },
          {
            "name": "标签",
            "value": "${ALARM_LABELS.join(\",\")}"
          },
          {
            "name": "报警资源IP",
            "value": "${ALARM_RESOURCE_IP}"
          },
          {
            "name": "所属集群UUID",
            "value": "${ALARM_RESOURCE_CLUSTER_UUID}"
          },
          {
            "name": "所属集群名称",
            "value": "${ALARM_RESOURCE_CLUSTER_NAME}"
          }
        ]
      }
    • 事件报警-文本模板示例:
      {
        "facts": [
          {
            "name": "事件详情",
            "value": null
          },
          {
            "name": "名称",
            "value": "${EVENT_NAME}"
          },
          {
            "name": "资源类型",
            "value": "${EVENT_NAMESPACE}"
          },
          {
            "name": "报警级别",
            "value": "${EVENT_EMERGENCY_LEVEL}"
          },
          {
            "name": "报警资源UUID",
            "value": "${EVENT_RESOURCE_ID}"
          },
          {
            "name": "报警资源名称",
            "value": "${EVENT_RESOURCE_NAME}"
          },
          {
            "name": "报警触发时间",
            "value": "${EVENT_TIME}"
          },
          {
            "name": "事件订阅UUID",
            "value": "${EVENT_SUBSCRIPTION_UUID}"
          },
          {
            "name": "错误",
            "value": "${EVENT_ERROR}"
          },
          {
            "name": "报警资源IP",
            "value": "${EVENT_RESOURCE_IP}"
          },
          {
            "name": "所属集群UUID",
            "value": "${EVENT_RESOURCE_CLUSTER_UUID}"
          },
          {
            "name": "所属集群名称",
            "value": "${EVENT_RESOURCE_CLUSTER_NAME}"
          }
        ]
      }
  • 恢复消息标题:资源报警器在监控资源从报警状态恢复时,可向通知对象发送一次恢复通知。此项用于设置恢复消息的标题模板。系统提供模板示例,用户可参考此示例,填写所需的标题信息:
    报警器 ${ALARM_NAME} ${TITLE_ALARM_RESOURCE_NAME}${ALARM_CURRENT_STATUS}
  • 恢复消息文本:设置恢复消息的内容模板。系统提供模板示例,示例包含了恢复消息可展示的全部信息项,用户可参考示例按需填写:
    {
      "facts": [
        {
          "name": "报警恢复详情",
          "value": null
        },
        {
          "name": "UUID",
          "value": "${ALARM_UUID}"
        },
        {
          "name": "资源类型",
          "value": "${ALARM_NAMESPACE}"
        },
        {
          "name": "恢复条件",
          "value": "${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR_REVERSE} ${ALARM_THRESHOLD}"
        },
        {
          "name": "先前状态",
          "value": "${ALARM_PREVIOUS_STATUS}"
        },
        {
          "name": "当前值",
          "value": "${ALARM_CURRENT_VALUE}"
        },
        {
          "name": "报警资源UUID",
          "value": "${ALARM_RESOURCE_ID}"
        },
        {
          "name": "报警触发时间",
          "value": "${ALARM_TIME}"
        },
        {
          "name": "报警级别",
          "value": "${ALARM_EMERGENCY_LEVEL}"
        },
        {
          "name": "报警资源名称",
          "value": "${ALARM_RESOURCE_NAME}"
        },
        {
          "name": "报警资源IP",
          "value": "${ALARM_RESOURCE_IP}"
        },
        {
          "name": "所属集群UUID",
          "value": "${ALARM_RESOURCE_CLUSTER_UUID}"
        },
        {
          "name": "所属集群名称",
          "value": "${ALARM_RESOURCE_CLUSTER_NAME}"
        }
      ]
    }
  • 默认模板:选择是否将该模板设置为默认模板,设置后,所有HTTP消息将按该模板格式发出
图 7所示:
图 7. 创建Webhook消息模板


创建Microsoft Teams消息模板

Microsoft Teams消息模板需遵循Microsoft Teams官方Webhook语法规则,语法规则详情请参考Microsoft Teams官网。

可参考以下示例输入相应内容:
  • 名称:设置消息模板名称
  • 简介:可选项,可留空不填
  • 类型:选择Microsoft Teams
  • 报警类型:选择该模板适用的报警类型,包括资源报警事件报警
  • 报警消息文本:设置报警消息内容模板。系统提供模板示例,示例包含了报警消息可展示的全部信息项,用户可参考示例按需填写:
    • 资源报警-文本模板示例:
      {
        "activityTitle": "报警器 ${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR} ${ALARM_THRESHOLD} ${ALARM_CURRENT_STATUS}",
        "facts": [
          {
            "name": "报警器详情",
            "value": null
          },
          {
            "name": "UUID",
            "value": "${ALARM_UUID}"
          },
          {
            "name": "资源类型",
            "value": "${ALARM_NAMESPACE}"
          },
          {
            "name": "触发条件",
            "value": "${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR} ${ALARM_THRESHOLD}"
          },
          {
            "name": "触发条件持续时间",
            "value": "${ALARM_DURATION} seconds"
          },
          {
            "name": "先前状态",
            "value": "${ALARM_PREVIOUS_STATUS}"
          },
          {
            "name": "当前值",
            "value": "${ALARM_CURRENT_VALUE}"
          },
          {
            "name": "报警资源UUID",
            "value": "${ALARM_RESOURCE_ID}"
          },
          {
            "name": "报警触发时间",
            "value": "${ALARM_TIME}"
          },
          {
            "name": "报警资源名称",
            "value": "${ALARM_RESOURCE_NAME}"
          },
          {
            "name": "报警级别",
            "value": "${ALARM_EMERGENCY_LEVEL}"
          },
          {
            "name": "标签",
            "value": "${ALARM_LABELS.join(\",\")}"
          },
          {
            "name": "报警资源IP",
            "value": "${ALARM_RESOURCE_IP}"
          },
          {
            "name": "所属集群UUID",
            "value": "${ALARM_RESOURCE_CLUSTER_UUID}"
          },
          {
            "name": "所属集群名称",
            "value": "${ALARM_RESOURCE_CLUSTER_NAME}"
          }
        ]
      }
    • 事件报警-文本模板示例:
      {
        "activityTitle": "报警 ${EVENT_NAME} 发生了",
        "facts": [
          {
            "name": "事件详情",
            "value": null
          },
          {
            "name": "名称",
            "value": "${EVENT_NAME}"
          },
          {
            "name": "资源类型",
            "value": "${EVENT_NAMESPACE}"
          },
          {
            "name": "报警级别",
            "value": "${EVENT_EMERGENCY_LEVEL}"
          },
          {
            "name": "报警资源UUID",
            "value": "${EVENT_RESOURCE_ID}"
          },
          {
            "name": "报警资源名称",
            "value": "${EVENT_RESOURCE_NAME}"
          },
          {
            "name": "报警触发时间",
            "value": "${EVENT_TIME}"
          },
          {
            "name": "事件订阅UUID",
            "value": "${EVENT_SUBSCRIPTION_UUID}"
          },
          {
            "name": "错误",
            "value": "${EVENT_ERROR}"
          },
          {
            "name": "报警资源IP",
            "value": "${EVENT_RESOURCE_IP}"
          },
          {
            "name": "所属集群UUID",
            "value": "${EVENT_RESOURCE_CLUSTER_UUID}"
          },
          {
            "name": "所属集群名称",
            "value": "${EVENT_RESOURCE_CLUSTER_NAME}"
          }
        ]
      }
  • 恢复消息文本:设置恢复消息的内容模板。系统提供模板示例,示例包含了恢复消息可展示的全部信息项,用户可参考示例按需填写:
    {
      "activityTitle": "报警器 ${ALARM_NAME} ${TITLE_ALARM_RESOURCE_NAME}${ALARM_CURRENT_STATUS}",
      "facts": [
        {
          "name": "报警恢复详情",
          "value": null
        },
        {
          "name": "UUID",
          "value": "${ALARM_UUID}"
        },
        {
          "name": "资源类型",
          "value": "${ALARM_NAMESPACE}"
        },
        {
          "name": "恢复条件",
          "value": "${ALARM_METRIC} ${ALARM_COMPARISON_OPERATOR_REVERSE} ${ALARM_THRESHOLD}"
        },
        {
          "name": "先前状态",
          "value": "${ALARM_PREVIOUS_STATUS}"
        },
        {
          "name": "当前值",
          "value": "${ALARM_CURRENT_VALUE}"
        },
        {
          "name": "报警资源UUID",
          "value": "${ALARM_RESOURCE_ID}"
        },
        {
          "name": "报警触发时间",
          "value": "${ALARM_TIME}"
        },
        {
          "name": "报警级别",
          "value": "${ALARM_EMERGENCY_LEVEL}"
        },
        {
          "name": "报警资源名称",
          "value": "${ALARM_RESOURCE_NAME}"
        },
        {
          "name": "报警资源IP",
          "value": "${ALARM_RESOURCE_IP}"
        },
        {
          "name": "所属集群UUID",
          "value": "${ALARM_RESOURCE_CLUSTER_UUID}"
        },
        {
          "name": "所属集群名称",
          "value": "${ALARM_RESOURCE_CLUSTER_NAME}"
        }
      ]
    }
  • 默认模板:选择是否将该模板设置为默认模板,设置后,所有Microsoft Teams消息将按该模板格式发出。
图 8所示:
图 8. 创建Microsoft Teams消息模板


管理消息模板

ZStack Cloud主菜单,点击平台运维 > 云平台监控 > 报警配置 > 消息模板,进入消息模板界面。

消息模板支持以下操作:
操作 描述
创建消息模板 创建一个消息模板。
设置为默认 将选中的报警消息模板设置为系统默认模板。
取消默认 将已设置为系统默认的消息模板取消默认设置。
删除 删除当前消息模板。

消息源

创建消息源

需要在设置 > 全局设置 > 高级设置中开启扩展报警开关,才能使用消息源功能。

ZStack Cloud主菜单,点击平台运维 > 云平台监控 > 报警配置 > 消息源,进入消息源界面,点击创建消息源,弹出创建消息源界面。

可参考以下示例输入相应内容:
  • 名称:设置消息源名称
  • 简介:可选项,可留空不填
  • 产品类别:选择接收报警消息的产品类别,目前支持Ceph企业版、Ceph专业版、ZStone
    Note:
    • 对接ZCE-X V5版本或ZStone 5.4.30以下版本,选择Ceph企业版
    • 对接ZCE-X V6版本,选择Ceph专业版
    • 对接ZStone 5.4.30及以上版本,选择ZStone
  • 登录地址及token:需填写正确的对应产品访问地址,并从对应产品页面获取对应的token信息
    • Ceph企业版:http://{产品平台ip地址}:{端口号}/v1/alerts/?token={访问令牌}
    • Ceph专业版输入格式:http://{产品平台ip地址}:{端口号}/v1/alert-infos/?token={访问令牌}
    • ZStone输入格式:http://{产品平台ip地址}:{端口号}/open/alert?token={访问令牌}
  • 报警消息转换模板:用于将第三方报警消息转换为云平台的报警消息,系统已预置转换模板,用户可自定义其中的参数
    报警消息转换模板示例如下:
    {
        "product":"Ceph企业版",
        "service":"Ceph企业版",
        "message":"${resource_type + '[' + resource_name+'] ' + group + ' ' + alert_value}",
        "metric":"${resource_type + '::' + group}",
        "alertLevel":"${level == 'info' ? 'Normal' : level == 'warning' ? 'Important' : 'Emergent'}",
        "alertTime":"${create}",
        "dimensions":"{'resource_name':'${resource_name}'}",
        "dataSource":"Ceph企业版"
    } 

管理消息源

ZStack Cloud主菜单,点击平台运维 > 云平台监控 > 报警配置 > 消息源,进入消息源界面。

消息源支持以下操作:
操作 描述
启用消息源 启用当前消息源,可以通过配置扩展报警器来接收消息。
停用消息源 停用当前消息源,使用该消息源的扩展报警器将无法接收消息。
删除 删除当前消息源。

通知对象

创建通知对象

ZStack Cloud主菜单,点击平台运维 > 云平台监控 > 报警配置 > 通知对象,进入通知对象界面,点击创建通知对象,弹出创建通知对象界面。

创建邮箱类型通知对象

  • 发送到主题的消息都会以邮件方式通过邮箱服务器发送到指定的邮箱地址。
  • 用户可提前创建消息模板,使通知邮件以统一格式发出;如不创建,通知邮件将按系统自带模板发出。
  • 请提前添加邮箱服务器,并确保邮箱服务器可用。
创建邮箱类型通知对象,请设置以下参数:
  • 名称:设置通知对象名称
  • 简介:可选项,可留空不填
  • 类型:选择邮箱
  • 邮箱地址:输入邮箱地址,最多支持添加100个
  • 邮箱服务器:输入已添加的邮箱服务器
  • 通知语言:设置消息的通知语言,包括中文简体、English

点击发送测试消息,发送成功后,点击确定,创建通知对象。

图 1所示:
图 1. 创建邮箱类型通知对象


创建钉钉类型通知对象

  • 发送到主题的消息都会以钉钉方式发送到指定的机器人地址。
    Note: 钉钉机器人每分钟最多可接收20条消息,如超过20条,将被限流10分钟,详情请参考钉钉官网。
  • 用户可提前创建报警消息模板,使钉钉消息以统一格式发出;如不创建,钉钉消息将按系统自带模板发出。
创建钉钉类型通知对象,请设置以下参数:
  • 名称:设置通知对象名称
  • 简介:可选项,可留空不填
  • 类型:选择钉钉
  • 地址:输入在钉钉平台生成的机器人Webhook地址
  • 提示群成员:设置通过机器人发送报警消息时,是否@群成员关注
    • 无:报警触发时,仅在群内发送报警消息,不@任何人关注。
    • @所有人:报警触发时,将在群内发送报警消息,并@所有人。
    • @指定成员:报警触发时,将在群内发送报警消息,并@指定成员关注。选择该项时,请设置:
      • 手机号码:填写需被@的用户手机号码
      • 备注:填写用户备注,便于后续管理被@的群成员名单
  • 安全设置:选择是否对钉钉机器人进行过安全设置,请按照以下说明填写:
    • 如未对机器人进行安全设置,请将此项标记为
    • 如为机器人设置IP地址 (段),请将此项标记为,并在钉钉平台上,将云平台管理节点IP、云平台VIP添加进机器人IP地址 (段)的白名单。
    • 如为机器人设置加签,请将此项标记为签名,并将签名密钥粘贴到下方密钥项。
    • 请不要为机器人设置自定义关键词
  • 通知语言:设置消息的通知语言,包括中文简体、English

点击发送测试消息,发送成功后,点击确定,创建通知对象。

图 2所示:
图 2. 创建钉钉类型通知对象


创建企业微信类型通知对象

  • 发送到主题的消息都会以微信方式发送到指定的企业微信机器人地址。
  • 用户可提前创建报警消息模板,使微信消息以统一格式发出;如不创建,微信消息将按系统自带模板发出。
创建企业微信类型通知对象,请设置以下参数:
  • 名称:设置通知对象名称
  • 简介:可选项,可留空不填
  • 类型:选择企业微信
  • 地址:输入在企业微信平台生成的机器人Webhook地址
  • 提示群成员:设置通过机器人发送报警消息时,是否@群成员关注
    • 无:报警触发时,仅在群内发送报警消息,不@任何人关注。
    • @所有人:报警触发时,将在群内发送报警消息,并@所有人。
    • @指定成员:报警出发时,将在群内发送报警消息,并@指定成员关注。选择该项时,请设置:
      • 用户ID:填写需被@的用户ID
      • 备注:填写用户备注,便于后续管理被@的群成员名单
  • 通知语言:设置报警消息通知语言,支持中文简体、English。默认与当前云平台语言一致

点击发送测试消息,发送成功后,点击确定,创建通知对象。

图 3所示:
图 3. 创建企业微信类型通知对象


创建飞书类型通知对象

  • 发送到主题的消息都会以飞书方式发送到指定的飞书机器人地址。
    Note: 飞书机器人每秒最多可接收5条消息,每分钟最多可接收100条消息,详情请参考飞书官网。
  • 用户可提前创建报警消息模板,使飞书消息以统一格式发出;如不创建,飞书消息将按系统自带模板发出。
创建飞书类型通知对象,请设置以下参数:
  • 名称:设置通知对象名称
  • 简介:可选项,可留空不填
  • 类型:选择飞书
  • 地址:输入在飞书平台生成的机器人Webhook地址
  • 提示群成员:设置通过机器人发送报警消息时,是否@群成员关注
    • 无:报警触发时,仅在群内发送报警消息,不@任何人关注。
    • @所有人:报警触发时,将在群内发送报警消息,并@所有人。
    • @指定成员:报警出发时,将在群内发送报警消息,并@指定成员关注。选择该项时,请设置:
      • 用户ID:填写需被@的用户ID
      • 备注:填写用户备注,便于后续管理被@的群成员名单
  • 安全设置:选择是否对飞书机器人进行过安全设置,请按照以下说明填写:
    • 如未对机器人进行安全设置,请将此项标记为
    • 如为机器人设置IP白名单,请将此项标记为,并在飞书平台上,将云平台管理节点IP、云平台VIP添加进机器人IP白名单。
    • 如为机器人设置签名校验,请将此项标记为签名,并将签名密钥粘贴到下方密钥项。
    • 请不要为机器人设置自定义关键词
  • 通知语言:设置报警消息通知语言,支持中文简体、English。默认与当前云平台语言一致

点击发送测试消息,发送成功后,点击确定,创建通知对象。

图 4所示:
图 4. 创建飞书类型通知对象


创建Webhook类型通知对象

  • 发送到主题的消息都会以HTTP POST方式发送到指定的Webhook地址。
  • 若指定的Webhook地址已设置了用户名和密码才可访问,需按实际情况填写用户名和密码。
  • 用户可提前创建报警消息模板,使Webhook消息以统一格式发出;如不创建,Webhook消息将按系统自带模板发出。
  • 名称:设置通知对象名称
  • 简介:可选项,可留空不填
  • 类型:选择Webhook
  • 地址:输入Webhook地址
  • 用户名:可选项,若指定的Webhook已设置用户名和密码才可访问,需按实填写用户名
  • 密码:可选项,需按实填写相应密码

点击发送测试消息,发送成功后,点击确定,创建通知对象。

图 5所示:
图 5. 创建Webhook类型通知对象


创建阿里云短信类型通知对象

  • 发送到主题的消息都会通过阿里云短信网关,以短信方式发送到指定的电话号码。
  • 用户需提前创建阿里云短信类型的消息模板并设为默认,以便报警消息按照消息模板发送。如未提前创建对应的消息模板并设为默认,短信报警消息将无法发送。
  • 名称:设置通知对象名称
  • 简介:可选项,可留空不填
  • 类型:选择短信
  • 短信网关服务商:选择阿里云
  • AccessKey:选择从阿里云申请的AccessKey
  • 手机号:输入接收短信的手机号码
图 6所示:
图 6. 创建阿里云短信类型通知对象


创建亿美软通短信类型通知对象

  • 发送到主题的消息都会通过亿美软通短信网关,以短信方式发送到指定的电话号码。
  • 用户需提前创建通用短信类型的消息模板并设为默认,以便报警消息按照消息模板发送。如未提前创建对应的消息模板并设为默认,短信报警消息将无法发送。
  • 名称:设置通知对象名称
  • 简介:可选项,可留空不填
  • 类型:选择短信
  • 短信网关服务商:选择亿美软通
  • AppId:输入从亿美软通申请的AppId
  • SecretKey:输入从亿美软通申请的SecretKey
  • RequestUrl:填写发送短信请求URL
  • 手机号:输入接收短信的手机号码
图 6所示:
图 7. 创建亿美软通短信类型通知对象


创建Microsoft Teams类型通知对象

  • 发送到主题的消息都会通过Webhook方式发送到指定的Microsoft Teams群组;
  • 用户可提前创建报警消息模板,使Microsoft Teams消息以统一格式发出;如不创建,Microsoft Teams消息将按系统自带模板发出。
  • 名称:设置通知对象名称
  • 简介:可选项,可留空不填
  • 类型:选择Microsoft Teams
  • 地址:输入在Microsoft Teams中获取到的Webhook地址
  • 通知语言:设置消息的通知语言,包括中文简体、English

点击发送测试消息,发送成功后,点击确定,创建通知对象。

图 8所示:
图 8. 创建Microsoft Teams类型通知对象


创建SNMP Trap接收端类型通知对象

  • 发送到主题的消息都会以Trap报文的方式发送到指定的SNMP Trap接收端;
  • 需提前开启SNMP管理,并添加SNMP Trap接收端。
可参考以下示例输入相应内容:
  • 名称:设置通知对象名称
  • 简介:可选项,可留空不填
  • 类型:选择SNMP Trap接收端
  • SNMP Trap接收端:选择已添加的SNMP Trap接收端

点击发送测试消息,发送成功后,点击确定,创建通知对象。

图 9所示:
图 9. 添加SNMP Trap接收端类型通知对象


管理通知对象

ZStack Cloud主菜单,点击平台运维 > 云平台监控 > 报警配置 > 通知对象,进入通知对象界面。

通知对象支持以下操作:
操作 描述
启用通知对象 将已停用的通知对象启用。
停用通知对象 将正在使用的通知对象停用。
发送测试消息 向通知对象发送测试消息,测试报警消息能否被正常发送。
Note:
  • 仅钉钉、企业微信、飞书、Microsoft Teams、短信、邮箱、Webhook、SNMP Trap接收端类型的通知对象支持该操作。
  • 测试消息发送成功后,请到接收端查收,如接收端未收到测试消息,请检查接收端是否配置了权限或拦截策略:
    • 钉钉/企业微信/飞书:检查是否开启了群禁言或@群成员限制;检查安全设置是否填写正确。
    • 邮箱:检查是否开启了黑名单或垃圾邮件过滤功能。
    • 短信:检查是否开启了黑名单功能,或短信网关是否发生报错。
    • SNMP Trap接收端:检查服务器防火墙和iptables配置。
    • 用户可登录各接收端对应的平台官网,查看更多信息拦截原因。
添加报警器 向选中的通知对象中添加报警器。
移除报警器 将报警器从通知对象中移除。
修改通知对象配置 修改通知对象配置,例如:通知语言、地址、安全设置、提示群成员等;邮箱或SNMP Trap接收端类型的通知对象还支持更换邮箱服务器或SNMP Trap接收端服务器
Note: 执行以上配置修改,请进入通知对象详情页。
删除 删除一个通知对象。