运维管理
管理节点监控
在多管理节点主机高可用场景下,可直观查看每个管理节点的健康状态。
管理节点监控支持显示多个管理节点的管理节点IP、节点状态、VIP和管理服务状态,主要包括以下管理服务:
- 仲裁IP是否可达:监控用于判断主备管理节点的仲裁IP是否可达,若不可达可能导致管理节点高可用功能失效。
- 对端管理节点是否可达:监控备管理节点是否可达,若备管理节点不可达,无法与备管理节点通信。
- VIP是否可达:监控VIP是否可达,若VIP不可达,主管理节点不能通过VIP访问UI界面。
- 数据库状态:监控数据库状态,若数据库异常或多管理节点数据库不同步,可能存在数据丢失风险,请及时恢复故障。
如图 1所示:图 1. 管理节点监控


监控报警
监控报警支持对时序化数据(如资源负载数据和资源容量数据)以及系统中发生的预定义事件进行监控,并通过通知服务(SNS)推送报警消息至指定的通知对象。支持资源报警器、事件报警器两种报警器类型,支持系统/邮箱/钉钉/企业微信/飞书/Webhook/短信/Microsoft Teams/SNMP Trap接收端通知对象类型,部分资源报警器需安装agent才能使用。
时序监控数据由Prometheus提供,在监控业务数据时,需将不同数据汇总,由Prometheus统一收集。
在Prometheus架构设计中,Prometheus服务器并不直接服务监控特定目标,其主要负责数据的收集、存储,并对外提供数据查询支持。因此,为监控到样本数据,如:主机CPU使用率,需通过Exporter周期性采集监控样本。ZStack ZSphere针对不同监控目标,分别使用拉取模式和推送模式来采集监控数据。当主机或虚拟机外部监控作为监控目标时,Prometheus服务会周期性使用拉取模式采集主机上Exporter收集到的数据。另外,由于网络问题或安全问题,Prometheus无法直接访问到虚拟机内部。此时需一个pushgateway作为中间者完成中转工作。采集端仍通过Exporter采集监控数据, 并采用推送方式周期性将数据推送给pushgateway,随后Prometheus采用拉取方式采集pushgateway数据,从而完成数据的统一收集。
如图 1所示:图 1. 监控数据采集原理


