报警服务

概述

ZStack ZSphere 支持针对资源对象设置负载类和容量使用类的报警,也可以针对平台中发生的预定义事件设置事件报警。在核心资源出现异常时,平台将即时将报警消息推送给指定的通知对象,以便迅速定位解决问题,最大程度避免造成业务损失。

报警服务基础架构

ZStack ZSphere 报警服务由监控系统和通知服务两部分组成。
  • 监控系统
    • 提供时序化数据监控和报警,包括资源负载数据和资源容量数据。
    • 收集平台预定义事件并报警。
    • 支持自定义报警器和报警消息模板。
    • 支持多入口查看报警消息。
  • 通知服务
    • 推送报警消息至通知对象,例如系统、邮箱、钉钉、飞书、企业微信、HTTP 应用、Microsoft Teams、SNMP Trap 接收端。

使用建议

考虑到监控数据会占用一定系统资源,建议您按照如下要求配置 ZStack ZSphere 相关资源。
  • 建议独立规划物理服务器作为平台管理节点。
  • 考虑到监控数据可能会周期性消耗系统盘 I/O 资源,建议使用 SSD 盘作为管理节点系统盘。
  • 为避免监控数据过大导致系统盘使用率过高,建议规划系统盘空间在 1TB 以上。
  • 若您的系统盘空间小于 500GB,您可以在系统参数中修改以下配置:
    • 监控数据保留周期:设置为 1 个月。
    • 监控数据保留大小:设置为 2 的幂次方,例如 32GB、64GB、128GB。

通知对象

新建通知对象

通知对象是通知服务推送报警消息的基础。ZStack ZSphere 提供系统报警通知对象作为默认通知对象,您也可以自定义创建多种类型的通知对象。

邮箱

前提条件

需预先添加邮箱服务器。有关更多信息,请参阅 添加邮箱服务器

操作步骤

  1. 在导航栏中,选择运维管理 > 通知对象
  2. 通知对象页面,点击新建通知对象
  3. 新建通知对象弹窗中,参考以下示例完成配置:
    • 名称:设置通知对象名称
    • 简介:按需填写通知对象简介
    • 类型:选择邮箱
    • 邮箱服务器:选择已添加的邮箱服务器
    • 邮箱地址:输入邮箱地址
    • 通知语言:报警消息的通知语言,包括简体中文、English
  4. 确认配置无误后,点击确定

后续操作

  • 可前往设置报警消息模板,确保报警消息按指定格式统一发出。有关更多信息,请参阅 消息模板
  • 可前往新建报警器,资源的报警消息将推送至指定的通知对象。有关更多信息,请参阅 报警器

钉钉

前提条件

  • 确保 ZStack ZSphere 已安装高级版许可证,并且许可证处于有效状态。
  • 需预先添加钉钉群机器人,并按需配置安全设置。添加完成后,获取机器人 Webhook 地址。有关更多信息,请参阅钉钉开放平台官方文档。

操作步骤

  1. 在导航栏中,选择运维管理 > 通知对象
  2. 通知对象页面,点击新建通知对象
  3. 新建通知对象弹窗中,参考以下示例完成配置:
    • 名称:设置通知对象名称
    • 简介:按需填写通知对象简介
    • 类型:选择钉钉
    • 地址:钉钉机器人的 Webhook 地址
    • 安全设置:选择在钉钉对群机器人进行的安全设置,包括签名或其他(自定义关键词或 IP 地址)
      • 自定义关键词:报警消息中需至少包含 1 个关键词才可以发送成功。若安全设置为自定义关键词,需在群机器人中添加 “报警” 为关键词,否则消息将发送失败。
      • IP 地址:只有来自 IP 地址范围内的请求才会被第三方应用正常处理。因此,若您选择此方式,需将平台的管理节点 IP 地址和 VIP 地址添加到机器人的 IP 白名单中,以确保第三方应用能正常接收报警消息
    • 提示群成员:用于设置报警消息推送至钉钉群后是否提醒指定成员,包括不指定、群组内所有人、指定群组内成员。选择指定群组内成员时,需添加群成员手机号码
    • 通知语言:报警消息的通知语言,包括简体中文、English
  4. 确认配置无误后,点击确定

后续操作

  • 可前往设置报警消息模板,确保报警消息按指定格式统一发出。有关更多信息,请参阅 消息模板
  • 可前往新建报警器,资源的报警消息将推送至指定的通知对象。有关更多信息,请参阅 报警器

飞书

前提条件

  • 确保 ZStack ZSphere 已安装高级版许可证,并且许可证处于有效状态。
  • 需预先添加飞书群机器人,并按需配置安全设置。添加完成后,获取机器人 Webhook 地址。有关更多信息,请参阅飞书开放平台官方文档。

操作步骤

  1. 在导航栏中,选择运维管理 > 通知对象
  2. 通知对象页面,点击新建通知对象
  3. 新建通知对象弹窗中,参考以下示例完成配置:
    • 名称:设置通知对象名称
    • 简介:按需填写通知对象简介
    • 类型:选择飞书
    • 地址:飞书机器人的 Webhook 地址
    • 安全设置:选择在飞书对群机器人进行的安全设置,包括签名或其他(自定义关键词或 IP 地址)
      • 自定义关键词:报警消息中需至少包含 1 个关键词才可以发送成功。若安全设置为自定义关键词,需在群机器人中添加 “报警” 为关键词,否则消息将发送失败。
      • IP 地址:只有来自 IP 地址范围内的请求才会被第三方应用正常处理。因此,若您选择此方式,需将平台的管理节点 IP 地址和 VIP 地址添加到机器人的 IP 白名单中,以确保第三方应用能正常接收报警消息
    • 提示群成员:用于设置通过机器人发送报警消息时是否提醒指定成员,包括不指定、群组内所有人、指定群组内成员。选择指定群组内成员时,需添加指定成员的用户 ID
    • 通知语言:报警消息的通知语言,包括简体中文、English
  4. 确认配置无误后,点击确定

后续操作

  • 可前往设置报警消息模板,确保报警消息按指定格式统一发出。有关更多信息,请参阅 消息模板
  • 可前往新建报警器,资源的报警消息将推送至指定的通知对象。有关更多信息,请参阅 报警器

企业微信

前提条件

  • 确保 ZStack ZSphere 已安装高级版许可证,并且许可证处于有效状态。
  • 需预先添加企业微信群机器人。添加完成后,获取机器人 Webhook 地址。有关更多信息,请参阅企业微信官方文档。

操作步骤

  1. 在导航栏中,选择运维管理 > 通知对象
  2. 通知对象页面,点击新建通知对象
  3. 新建通知对象弹窗中,参考以下示例完成配置:
    • 名称:设置通知对象名称
    • 简介:按需填写通知对象简介
    • 类型:选择企业微信
    • 地址:企业微信机器人的 Webhook 地址
    • 提示群成员:用于设置通过机器人发送报警消息时是否提醒指定成员,包括不指定、群组内所有人、指定群组内成员。选择指定群组内成员时,需添加指定成员的用户 ID
    • 通知语言:报警消息的通知语言,包括简体中文、English
  4. 确认配置无误后,点击确定

后续操作

  • 可前往设置报警消息模板,确保报警消息按指定格式统一发出。有关更多信息,请参阅 消息模板
  • 可前往新建报警器,资源的报警消息将推送至指定的通知对象。有关更多信息,请参阅 报警器

短信

前提条件

需预先在第三方申请包含短信服务的AccessKey。

操作步骤

  1. 在导航栏中,选择运维管理 > 通知对象
  2. 通知对象页面,点击新建通知对象
  3. 新建通知对象弹窗中,参考以下示例完成配置:
    • 名称:设置通知对象名称
    • 简介:按需填写通知对象简介
    • 类型:选择短信
    • AccessKey ID:输入标识用户的 AccessKey ID
    • AccessKey Secret:输入验证用户的密钥
    • 短信地址:输入接收短信的手机号码
  4. 确认配置无误后,点击确定

后续操作

  • 可前往设置报警消息模板,确保报警消息按指定格式统一发出。有关更多信息,请参阅 消息模板
  • 可前往新建报警器,资源的报警消息将推送至指定的通知对象。有关更多信息,请参阅 报警器

HTTP 应用

前提条件

需预先准备 HTTP 应用的 Webhook 地址,并按需配置用户名和密码。

操作步骤

  1. 在导航栏中,选择运维管理 > 通知对象
  2. 通知对象页面,点击新建通知对象
  3. 新建通知对象弹窗中,参考以下示例完成配置:
    • 名称:设置通知对象名称
    • 简介:按需填写通知对象简介
    • 类型:选择 HTTP 应用
    • 地址:HTTP 服务地址
    • 用户名:HTTP 应用设置的用户名
    • 密码:用户名对应的密码
  4. 确认配置无误后,点击确定

后续操作

  • 可前往设置报警消息模板,确保报警消息按指定格式统一发出。有关更多信息,请参阅 消息模板
  • 可前往新建报警器,资源的报警消息将推送至指定的通知对象。有关更多信息,请参阅 报警器

Microsoft Teams

前提条件

  • 确保 ZStack ZSphere 已安装高级版许可证,并且许可证处于有效状态。
  • 需在 Microsoft Teams 中预先添加 Incoming Webhook 应用。添加完成后,获取 Webhook 地址。有关更多信息,请参阅 Microsoft Teams 官方文档。

操作步骤

  1. 在导航栏中,选择运维管理 > 通知对象
  2. 通知对象页面,点击新建通知对象
  3. 新建通知对象弹窗中,参考以下示例完成配置:
    • 名称:设置通知对象名称
    • 简介:按需填写通知对象简介
    • 类型:选择 Microsoft Teams
    • 地址:从 Microsoft Teams 中获取到的 Webhook 地址
    • 通知语言:报警消息的通知语言,包括简体中文、English
  4. 确认配置无误后,点击确定

后续操作

  • 可前往设置报警消息模板,确保报警消息按指定格式统一发出。有关更多信息,请参阅 消息模板
  • 可前往新建报警器,资源的报警消息将推送至指定的通知对象。有关更多信息,请参阅 报警器

SNMP Trap接收端

前提条件

  • 确保 ZStack ZSphere 已安装高级版许可证,并且许可证处于有效状态。
  • 需预先启用 SNMP 管理并添加 SNMP Trap 接收端。有关更多信息,请参阅 启用 SNMP 服务

操作步骤

  1. 在导航栏中,选择运维管理 > 通知对象
  2. 通知对象页面,点击新建通知对象
  3. 新建通知对象弹窗中,参考以下示例完成配置:
    • 名称:设置通知对象名称
    • 简介:按需填写通知对象简介
    • 类型:选择 SNMP Trap 接收端
    • SNMP Trap 接收器:选择已添加的 SNMP Trap 接收器
  4. 确认配置无误后,点击确定

管理通知对象

修改基础信息

若您只需修改通知对象的名称和简介,可在通知对象页面,点击操作 > 编辑名称简介,进行修改即可。

若您需修改通知对象的配置信息,可在通知对象页面,点击操作 > 修改配置,进行修改即可。

启用/停用通知对象

若您需启用或停用某个或某些通知对象,避免向不必要的人员发送报警消息,同时确保相关人员能及时收到报警信息以采取必要措施,可在通知对象页面,选择这些通知对象,然后点击启用停用即可。

为通知对象添加/移除报警器

若您需为通知对象添加或移除报警器,确保通知对象只接收其关注的报警信息,避免不必要的干扰,可在通知对象页面,选择一个通知对象,然后点击操作 > 添加报警器/移除报警器,选择需要添加或移除的报警器即可。

删除通知对象

若您需删除已有通知对象,可在通知对象页面,选择需要删除的通知对象,然后点击操作 > 删除,即可删除。
Note: 您无法删除系统通知对象。

消息模板

新建消息模板

消息模板是报警器向通知对象推送报警消息时使用的文本模板。您可以为每种通知对象类型指定一个消息模板为默认模板,报警消息将使用默认模板的格式推送信息。

前提条件

新建钉钉、飞书、企业微信、Microsoft Teams 类型的消息模板前,需确保 ZStack ZSphere 已安装高级版许可证,并且许可证处于有效状态。

操作步骤

  1. 在导航栏中,选择运维管理 > 消息模板
  2. 消息模板页面,点击新建消息模板
  3. 新建消息模板弹窗中,参考以下示例完成配置:
    基本信息
    • 名称:消息模板名称
    • 简介:消息模板简介
    模板信息
    当类型选择为邮箱、钉钉、飞书、企业微信、HTTP 应用、Microsoft Teams 时,参考以下示例配置模板:
    • 类型:消息模板类型,选择邮箱、钉钉、飞书、企业微信、HTTP 应用、或 Microsoft Teams
    • 报警类型:包括资源报警和事件报警
    • 报警消息标题:报警消息展示的标题
    • 报警消息文本:报警消息展示的文本
    • 恢复消息标题:报警器监控的任一资源状态从报警状态恢复时,平台发送的恢复消息展示的标题。仅资源报警类型支持设置此参数
    • 恢复消息文本:恢复消息展示的文本。仅资源报警类型支持设置此参数
    • 默认模板:默认未勾选。勾选后,可将当前创建的消息模板设置为默认模板
    当类型选择为短信时,参考以下示例配置模板:
    • 类型:消息模板类型,选择短信
    • 签名名称:输入第三方平台申请的短信签名名称
    • 资源报警模板:设置资源报警消息模板并输入资源报警模板 CODE
    • 事件报警模板:设置事件报警消息模板并输入事件报警模板 CODE
    • 默认模板:设置该模板为默认模板,设置后,所有短信将按此模板格式发出
    Note:
    1. 设置邮箱、飞书类型的报警消息模板需遵循 Text 语法要求。
    2. 设置钉钉、企业微信类型的报警消息模板需遵循 Markdown 语法要求。
    3. 设置 HTTP 应用类型的报警消息模板需遵循 JSON 语法要求。
    4. 设置 Microsoft Teams 类型的报警消息模板需遵循 Microsoft Teams 官方 Webhook 语法要求,详情可参考 Microsoft Teams 官网。
    5. 设置短信类型的报警消息模板需要提前完成第三方短信签名和短信模板申请,目前仅支持阿里云的短信服务接入,修改模板需要在第三方进行并重新完成申请。
  4. 确认配置无误后,点击确定

管理消息模板

修改基础信息

若您只需修改消息模板的名称和简介,可在消息模板页面,点击操作 > 编辑名称简介,进行修改即可。

若您需修改消息模板的其它配置,包括基本信息和模板信息,可在消息模板页面,点击操作 > 修改配置,进行修改即可。

设置默认消息模板/取消默认

若您已添加多个消息模板,您需指定一个模板为默认消息模板,报警消息将使用默认模板的格式推送信息。您可在消息模板页面,点击操作 > 设置为默认即可。

若您需取消默认消息模板,可在消息模板页面,点击操作 > 取消默认即可。

删除消息模板

若您需删除某个或某些消息模板,可在消息模板页面,点击批量操作 > 删除即可删除。

报警器

报警规则说明

新建报警器前,您可先了解报警器的报警规则。本章节将展示如何配置资源类和事件类报警器的报警规则。

资源类报警规则

参数 描述 示例
资源类型 报警器监控的资源类型。 虚拟机
报警条目 各监控指标类型和名称。 CPU 使用率
资源 报警器监控的资源对象。 /
报警触发规则 比较关系 比较检测指标值和阈值的关系。

比较关系包括>、≥、<、≤。

阈值 报警触发的阈值和单位。 85%
持续时间 当报警连续触发达到多长时间后,发送报警消息。

持续时间包括 30 秒、1 分钟、5 分钟、10 分钟、30 分钟、1 小时、自定义。

5 分钟
报警间隔 当报警产生时,报警以特定的间隔重复通知。

报警间隔包括仅一次、每 1 小时、自定义。

每 1 小时
报警级别 报警消息级别包括紧急、严重、提示。 严重
报警恢复通知 报警器监控的资源从报警状态恢复至正常状态时,发送一次恢复通知。 /

事件类报警规则

参数 描述 示例
资源类型 报警器监控的资源类型。 数据存储
报警条目 各监控指标名称。 数据存储未连接
报警级别 报警消息级别包括紧急、严重、提示。 紧急

新建资源报警器

资源报警器用于监控平台中的资源时序化数据,例如对虚拟机 CPU 使用率设置一个报警器,当某虚拟机 CPU 使用率超过 80% 并持续 5 分钟时,将触发系统报警。

前提条件

  • ZStack ZSphere 提供系统参数功能,可全局控制平台设置的默认行为。您可在系统参数中自定义报警器相关的参数。有关更多信息,请参阅 系统参数
  • 报警器部分报警条目需要安装 VMTools 才能进行监控报警。有关 VMTools 的更多信息,请参阅 虚拟机VMTools篇

操作步骤

  1. 在导航栏中,选择运维管理 > 报警器 > 资源报警器
  2. 资源报警器页面,点击新建资源报警器
  3. 新建资源报警器弹窗中,参考以下示例完成配置:
    基本信息
    • 名称:资源报警器名称
    • 简介:资源报警器简介
    配置信息
    • 资源类型:支持报警的资源类型
    • 报警条目:根据所选资源类型,按需选择报警条目。部分报警条目需选择资源并设置相应的报警触发规则
    • 报警间隔:选择报警间隔类型,包括仅一次和重复报警
    • 报警级别:不同级别的报警器将发出对应级别的报警消息,包括紧急、严重、提示三种级别
    • 报警恢复通知:默认关闭。若打开开关,当报警器监控的任一资源从报警状态恢复,则会接收到一次恢复通知

      报警恢复通知按默认消息模板发送,您也可以自定义消息模板。有关更多信息,请参阅 新建消息模板

    • 通知对象:触发报警器后,将报警消息推送至指定的通知对象

      默认提供系统报警通知对象,您也可以自定义创建通知对象。有关更多信息,请参阅 新建通知对象

  4. 确认配置无误后,点击确定

新建事件报警器

事件报警器用于监控平台中预定义的事件,例如主机未连接事件报警器,当主机失联时,将触发系统报警。

前提条件

  • ZStack ZSphere 提供系统参数功能,可全局控制平台设置的默认行为。您可在系统参数中自定义报警器相关的参数。有关更多信息,请参阅 系统参数
  • 报警器部分报警条目需要安装 VMTools 才能进行监控报警。有关 VMTools 的更多信息,请参阅 虚拟机VMTools篇

操作步骤

  1. 在导航栏中,选择运维管理 > 报警器 > 事件报警器
  2. 事件报警器页面,点击新建事件报警器
  3. 新建事件报警器弹窗中,参考以下示例完成配置:
    • 资源类型:支持报警的资源类型
    • 报警条目:根据所选资源类型,按需选择报警条目
    • 报警级别:不同级别的报警器将发出对应级别的报警消息,包括紧急、严重、提示三种级别
    • 通知对象:触发报警器后,将报警消息推送至指定的通知对象

      默认提供系统报警通知对象,您也可以自定义创建通知对象。有关更多信息,请参阅 新建通知对象

  4. 确认配置无误后,点击确定

管理报警器

修改基础信息

若您只需修改报警器的名称和简介,可在报警器页面,点击操作 > 编辑名称简介,进行修改即可。

若您需修改资源报警器的基本信息和配置信息、以及事件报警器的配置信息,可在报警器页面,然后目标资源报警器或事件报警器,然后点击操作 > 修改配置,进行修改即可。

启用/停用报警器

若您需启用/停用某个或某些报警器,可在报警器页面,选择这些报警器,然后点击启用停用即可。

为报警器添加/移除通知对象

若您需为报警器添加/移除通知对象,确保通知对象只接收其关注的报警信息,避免不必要的干扰,可在报警器页面,点击操作 > 添加通知对象/移除通知对象,选择需要添加或移除的通知对象即可。

删除报警器

若您需删除某个或某些报警器,可在报警器页面,选择这些报警器,然后点击删除,即可删除。
Note: 您无法删除默认报警器。

报警消息

查看报警消息

背景信息

触发的报警消息在平台中多处可见。
  • 从统一入口查看:报警消息页面将平台整体报警信息呈现在一个看板中。您可以基于不同维度对比查看报警消息,帮助您直观、全面地了解平台资源状态,发现潜在问题和瓶颈。
  • 从资源入口查看:您可以聚焦于某个具体资源查看其报警消息,更精细地了解该资源的报警情况,从而更有针对性地进行优化和调整。
  • 从底部任务和报警窗格查看:您可以从平台底部的窗格中查看报警消息。窗格最多展示近 50 条报警消息,您也可以通过点击查看更多跳转至报警消息页面。

操作步骤

  1. 在导航栏中,选择运维管理 > 报警消息
  2. 查看已触发的报警消息。
    报警消息页面由近一周报警统计、近一周报警分布和报警消息列表组成。
    • 近一周报警统计:以柱状图形式展示近 7 日内报警统计数据,采样间隔为 8 小时。您可将光标悬浮至柱状图上方查看不同级别报警数量。
    • 近一周报警分布:以条形图形式展示近 7 日内资源报警占比情况。您可将光标悬浮至条形图上方查看不同类型资源的报警数量。
    • 报警消息列表:以列表形式最多展示 1000 条报警消息。您可以按资源类型和时间进行筛选展示。

确认报警消息

确认报警可以让其他用户了解您正在处理该问题。管理员确认报警消息以便让运维人员更容易识别和及时响应消息,确保不会错过任何重要报警信息。

操作步骤

  1. 在导航栏中,选择运维管理 > 报警消息
  2. 实时报警列表下,选择一个报警消息,然后点击确认
    1. 已确认的报警消息不在实时报警中展示,可在全部报警消息中查看。
    2. 确认后,若未及时处理报警问题,报警器将继续按规则触发并推送消息。若不希望报警消息重复推送,可按需设置沉默周期。

设置沉默周期

若您需在一定时间内暂停某条报警消息的推送,可选择为其设置沉默周期。在沉默周期内,将不再推送该报警消息。沉默周期结束后,如报警器仍处于触发状态,将再次推送该报警消息。

操作步骤

  1. 在导航栏中,选择运维管理 > 报警消息
  2. 实时报警全部报警列表中,选择一条报警消息,然后点击操作 > 设置沉默周期
  3. 设置沉默周期弹窗中,选择沉默时间。

恢复报警

若您需恢复在沉默周期中的报警消息的推送,可手动恢复报警。

操作步骤

  1. 在导航栏中,选择运维管理 > 报警消息
  2. 实时报警全部报警列表中,选择一条报警消息,然后点击恢复报警