ZStack Logo

ZStack AIOS

巡检项总览

完整平台用户手册,包含基础云平台能力与 AIOS 相关章节。

巡检类型 巡检项 巡检项含义 巡检建议
平台 许可证过期检查 检查平台许可证、模块许可证许可证是否过期。 若检测到平台相关许可证服务即将到期或已到期,为不影响您的正常使用,请尽快联系平台相关人员进行授权更新,以继续使用本平台功能。
物理机时间源一致性检查 检查物理机是否设置时间源同步以及物理机时间源设置是否与集群内其他物理机一致。 若检测到物理机时间源与集群内其他物理机时间源不一致或物理机系统时钟未与时间源同步,请SSH登录对应物理机系统,检查时间源配置。
监控数据容量检查 检查平台监控数据管理节点所在磁盘的容量占比。 若检测到平台监控数据容量已占用管理节点所在磁盘超过50%的容量,请在平台的全局设置中调整监控数据保留大小或监控数据保留周期。
管理节点系统盘已用容量检查 检查平台管理节点系统盘使用率和使用量。 若检测到平台管理节点系统盘使用率已超过70%甚至90%,请立即SSH登录至管理节点系统,检查并清理对业务无影响的数据。
管理节点数据库备份任务检查 检查平台管理节点数据库是否配置异地备份任务以及异地备份任务配置是否生效。

若检测到平台管理节点未配置数据库异地备份,请SSH登录至管理节点系统,检查是否配置crontab定时任务。

若检测到平台管理节点数据库异地备份配置未生效,请SSH登录至管理节点系统,检查管理节点是否可以免密登录至指定的备份节点。

管理节点高可用状态检查 检查平台管理节点是否配置高可用或高可用服务是否正常。

若检测到平台管理节点未配置高可用服务,为确保平台高可用,建议立即进行配置。

若检测到平台管理节点高可用服务状态异常,请立即确认管理节点系统状态。

灾备服务器容量检查 检查平台上本地备份服务器和远端备份服务器的容量使用率。

若检测到灾备服务器容量使用率不低于70%且不高于90%,请及时删除过期灾备数据或扩容灾备服务器容量。

若检测到灾备服务器容量使用率不低于90%,可能会导致灾备任务无法执行,请及时删除过期灾备数据或扩容灾备服务器容量。

计算 物理机CPU检查 检查平台上物理机每个CPU的状态和温度。
若检测到物理机的CPU温度已连续5分钟不低于80℃,温度持续过高可能会导致物理机运行不稳定、物理机自动下电或重启,中断云主机业务。请依次检查以下几项:
  • 机房环境温度是否已超出物理机运行环境所要求的温度。
  • 物理机带外管理界面检查风扇模块是否存在低转速告警、主板或CPU是否存在故障告警。

若检测到物理机CPU处于离线状态,可能会导致物理机运行不稳定、中断云主机业务。请在物理机带外管理界面检查是否存在CPU、主板故障告警。

物理机内存检查 检查平台上物理机内存使用率、交换分区使用率、以及是否存在ECC告警。 若检测到物理机的内存处于警告状态,可能会导致物理机OOM内存溢出、影响物理机性能、中断云主机业务。可参考以下建议逐一排查:
  • 内存使用率:若物理机内存使用率不低于90%,请检查相关物理机上云主机负载情况。若负载过高,建议将云主机迁移至其他物理机运行;若负载正常,请检查物理机操作系统中是否存在异常进程内存泄露。
  • 交换分区使用率:若物理机交换分区使用率不低于10%,请及时检查相关物理机上云主机运行状态,迁移部分云主机,并扩容物理机内存。
  • ECC告警:若物理机出现ECC告警,请及时检查相关物理机上云主机运行状态,迁移部分云主机;并检查物理机内存是否存在故障情况,及时更换物理机内存。
物理机CPU平均使用率检查 检查平台上物理机CPU平均使用率。

若检测到物理机CPU平均使用率超过70%,请登录物理机系统,确认物理机上是否存在异常进程。若未存在异常进程,建议考虑对集群进行扩容。

若检测到物理机CPU平均使用率超过90%,请登录物理机系统,确认物理机上是否存在异常进程。若未存在异常进程,建议立即对集群进行扩容。

物理机系统盘已用容量检查 检查平台上物理机系统盘使用率和使用量。 若检测到物理机系统盘容量使用率超过70%甚至90%,请立即登录至物理机系统,检查并清理对业务无影响的数据。
物理机上云主机数量检查 检查物理机上运行云主机的数量。 若检测到物理机上运行云主机已超20个,请确认物理机资源使用情况,按需热迁移云主机,确保均衡使用物理机资源。
物理机就绪状态检查 检查平台上物理机是否失联。 若检测到平台物理机失联,请立即检查相关物理机系统状态是否正常。
物理机系统密码强度检查 检查平台上物理机root密码强度是否满足要求。 若检测到物理机root密码强度不足,建议重设密码,长度不少于8位,包含数字、大小写字母和特殊字符。
物理机SWAP分区检查 检查平台上物理机SWAP分区是否关闭。

若检测到物理机未关闭SWAP分区,可能会影响云主机业务,建议按需登录对应物理机系统关闭SWAP分区。

若检测到平台存在分布式存储,物理机未关闭SWAP分区,可能会严重影响云主机业务,请立即登录对应物理机系统关闭SWAP分区。

物理机僵尸进程检查 检查物理机上运行的僵尸进程数量。 若检测到物理机上存在僵尸进程,可能是由于云主机进程或其他系统服务进程未正常退出。该情况可能会导致云主机无法正常启动或物理机失联。请检查相关物理机僵尸进程具体对应的服务,可将云主机迁移至其他物理机,重启该物理机解决。
高可用云主机运行状态检查 检查平台上已启动高可用的云主机运行状态。 若检测到已开启高可用的云主机处于非运行状态,请查看对应云主机运行状态是否正常。
云主机CPU平均使用率检查 检查平台上云主机CPU平均使用率。 若检测到云主机CPU平均使用率已超80%甚至95%,请立即登录至对应云主机系统内检查,确认是否存在异常业务,并按需优化运行业务或升配云主机计算规格。
云主机系统盘已用容量检查 检查平台上云主机系统盘使用率。 若检测到云主机系统盘容量使用率已超70%甚至90%,请立即登录至对应云主机系统,检查并清理对业务无影响的数据,或按需对云主机系统盘进行扩容。
已设置故障策略云主机状态检查 检查平台上已开启故障检测功能的云主机是否出现故障。 若检测到云主机处于故障状态,请检查对应云主机系统状态是否正常。
长期关机云主机检查 检查平台上关机天数不低于30天的云主机。

若检测到云主机处于关机状态已不少于30天,请检查相关云主机是否为运行业务的云主机。若不是可清理释放资源。

网络 物理机网卡检查 检查物理机的网卡状态、连接模式、丢包率、速率、以及是否处于全双工模式。
若检测到物理机的网卡处于警告状态,可能会导致物理机失联,云主机业务网络通信受影响。可参考以下建议逐一排查:
  • 网卡丢包率:若物理机网卡丢包率不低于1%,可能是由于网络波动或者网络硬件故障,请检查相关物理机网卡或交换机硬件是否异常。
  • 网卡连接模式:若物理机网卡协商后网口速率不等于默认网口速率,可能是由于网络硬件故障或上联交换机端口速率异常所致,请检查网络硬件健康状态。
  • 全双工模式:若物理机网卡处于非全双工模式,可能是由于上联交换机配置异常或网卡网线硬件故障,请检查网络硬件健康状态或上联交换机配置,或者手动配置接口双工模式为全双工。
  • 网口速率:若物理机网口速率低于1Gbps,可能会导致网络性能不足,生产环境建议使用千兆以上网卡。
若检测到物理机的网卡处于故障状态,可能会导致云主机业务网络通信或IO读写受影响,可参考以下建议逐一排查:
  • 网卡状态:若物理机网卡状态为DOWN,请检查相关物理机网络硬件是否出现故障,包括网卡、网线、光模块、光纤故障或网卡未连接等故障。
  • 网卡丢包率:若物理机网卡丢包率不低于10%,请检查相关物理机网卡机硬件是否异常或是否出现IP冲突。
物理机Bond内物理网口状态检查 检查平台上物理机Bond内物理网口状态是否UP。 若检测到Bond内物理机网口状态为DOWN,请检查物理机网卡是否存在故障。
业务网络冗余性检查 检查平台上业务网络对应物理网口是否配置Bond。 若检测到平台业务网络使用的物理网口未配置Bond,不具备网络冗余性,请按需确认是否需配置Bond。
物理机管理网连通性检查 检查平台上物理机管理网络IP之间是否连通。 若检测到物理机管理网络IP之间无法连接,请检查物理机系统状态是否正常。
物理机管理网丢包检查 检查到平台上物理机管理网络IP是否存在丢包。

若检测到物理机管理网络IP丢包,请检查对应物理机的物理链路是否正常以及物理网卡是否存在硬件故障。

若检测到物理机管理网络IP网络不通,丢包率为100%,请检查对应物理机系统状态是否正常。

物理机存储网丢包检查 检查到平台上物理机存储网络IP是否存在丢包。

若检测到物理机存储网络IP丢包,请检查对应物理机的物理链路是否正常以及物理网卡是否存在硬件故障。

若检测到物理机存储网络IP网络不通,丢包率为100%,请检查对应物理机系统状态是否正常。

存储 物理机HDD检查 检查平台上物理机HDD磁盘健康状态、IO利用率、以及是否存在坏道。
若检测到物理机的HDD盘处于警告状态,可能会导致业务云主机IO读写卡顿,影响云主机业务。可参考以下建议逐一排查:
  • 健康状态:若物理机HDD盘健康状态异常,请检查相关物理机HDD盘是否存在磁盘坏道、接口接触不良等故障情况,并按需及时更换故障HDD盘。
    说明: 部分HDD型号可能无法被平台识别,平台不会对这类HDD进行健康检查,HDD健康状态显示为未知,用户可在对应硬件平台确认HDD的健康状态。
  • IO利用率:若物理机HDD盘IO利用率连续5分钟不低于90%,请检查相关物理机HDD盘是否存在IO高延迟、读写性能不足或其他异常情况。若存在硬盘故障,请及时更换。
  • 磁盘坏道:若物理机HDD盘存在磁盘坏道,请检查相关物理机HDD盘IO读写情况,确认故障范围,并及时更换故障硬件。
物理机SSD检查 检查平台上物理机SSD磁盘健康状态、IO利用率、剩余寿命、以及温度。
若检测到物理机的SSD盘处于警告状态,可参考以下建议逐一排查:
  • 健康状态:若物理机SSD盘健康状态异常,请检查相关物理机SSD盘故障情况,并及时更换物理机故障SSD盘。健康状态异常可能会导致云主机IO读写卡顿或直接挂死。
    说明: 部分SSD型号可能无法被平台识别,平台不会对这类SSD进行健康检查,SSD健康状态显示为未知,用户可在对应硬件平台确认SSD的健康状态。
  • IO利用率:若物理机SSD盘IO利用率连续5分钟不低于90%,请检查相关物理机SSD盘是否存在IO高延迟、读写性能不足或其他异常情况。持续过高IO利用率可能会导致云主机业务卡顿。
  • 温度:若物理机SSD盘温度不低于60℃但低于70℃,请检查相关物理机SSD盘是否存在长时间高IO写入等异常情况。高温状态可能会导致SSD盘运行不稳定,影响业务云主机IO读写。
  • 剩余寿命:若物理机SSD盘剩余寿命不低于10%且不高于30%,请及时更换同型号SSD备盘,SSD寿命耗尽将无法进行IO读写。
若检测到物理机的SSD盘处于故障状态,可参考以下建议逐一排查:
  • 温度:若物理机SSD盘温度不低于70℃,请依次检查机房环境温度是否过高、相关物理机SSD盘是否存在长时间高IO写入等异常情况。高温状态可能会导致SSD盘运行不稳定,影响业务云主机IO读写。
  • 剩余寿命:若物理机SSD盘剩余寿命低于10%,请及时更换同型号SSD备盘,SSD盘随时可能故障导致无法使用。
物理机RAID卡检查 检查平台上物理机RAID卡状态以及缓存模式。

若检测到RAID 处于降级状态:该情况可能影响数据冗余功能,请检查RAID 卡健康状态并及时处理。

若检测到物理机RAID卡的缓存模式非write-through,该情况可能会导致存储服务无法启动,断电后系统盘数据无法恢复。请将Raid卡缓存模式调整为write-through。

若检测到物理机RAID卡出现异常,可能是由于RAID卡硬件故障或RAID接触不良。该情况可能会导致物理机系统挂死,业务云主机IO无法读写。请检查相关物理机RAID卡健康状态,并物理机带外管理检查是否存在RAID故障告警,若存在故障告警须及时更换。

云盘快照数量检查 检查云盘上创建的快照数量。 若检测到云盘快照数量已超过20个,过多快照会影响云主机性能、数据安全以及主存储容量,请按需清理云盘上对业务无影响的快照数据。
主存储就绪状态检查 检查平台上主存储是否存在失联。 若检测到主存储失联,请立即检查相关主存储状态是否正常。
镜像服务器就绪状态检查 检查平台上镜像服务器是否存在失联。 若检测到镜像服务器失联,请立即检查相关镜像服务器存储状态是否异常。
镜像服务器已使用容量检查 检查平台上镜像服务器使用率和使用量。

若检测到镜像服务器已用物理容量超过70%,建议对镜像服务器存储进行扩容。

若检测到镜像服务器已用物理容量超过85%,请清理无用镜像资源,释放镜像服务器空间,并考立即对镜像服务器存储进行扩容。

主存储已用物理容量检查 检查平台上主存储使用率和使用量。

若检测到主存储已用物理容量超过70%,建议对主存储进行扩容。

若检测到主存储已用物理容量超过85%,为避免存储空间被写满,请清理无用的云主机/云盘资源,释放主存储空间,并立即对主存储进行扩容。

分布式存储Mon节点状态检查 检查平台上分布式存储Mon节点的连接状态是否正常。 若检测到分布式存储Mon节点失联,请立即检查分布式存储状态是否正常。
分布式存储状态检查 检查平台上分布式存储健康状态是否正常。 若检测到分布式存储健康状态异常,请立即登录物理机系统,检查分布式存储系统状态。
主存储心跳网络检查 检查平台上主存储的存储心跳网络配置是否正确。 若检测到主存储未配置存储心跳网络,请立即检查并配置主存储的存储心跳网络,确保实时监控主存储健康状态。
全局设置 云主机高可用策略检查 检查平台全局设置中云主机高可用策略是否为激进策略。 若检测到云主机高可用策略为保守策略,将不支持云主机高可用。为保证云主机上业务高可用,请在平台设置中将该设置调整为激进策略。
物理机保留内存检查 检查平台全局设置中物理机保留内存设置是否合理。 若检测到物理机保留内存较小,由于平台系统服务会占用一定物理机内存,为保证系统服务正常运行,请在全局设置中调整物理机保留内存至少为30G。
内存超分率检查 检查平台全局设置中物理机内存超分率设置是否合理。 若检测到物理机内存超分率高于1,由于内存超分存在物理机OOM内存溢出风险,生产环境不建议内存超分。请在全局设置中调整内存超分率为1。
主存储超分率检查 检查平台全局设置中主存储超分率设置是否合理。 若检测到主存储超分率高于1,由于主存储超分存在存储池溢出风险,生产环境不建议主存储超分。请在全局设置中调整主存储超分率为1。
主存储使用阈值检查 检查平台全局设置中主存储使用阈值设置是否合理。 若检测到主存储使用阈值设置偏高,为防止系统过度使用主存储空间,请在全局设置中调整主存储使用阈值为0.85。
主存储保留容量检查 检查平台全局设置中主存储保留容量设置是否合理。 若检测到主存储保留容量较少,请在全局设置中调整主存储保留容量为200G。
镜像服务器保留容量检查 检查平台全局设置中镜像服务器保留容量设置是否合理。 若检测到镜像服务器保留容量较少,请在全局设置中调整镜像服务器保留容量为200G。