ZStack Logo

ZStack AIOS

概述

完整平台用户手册,包含基础云平台能力与 AIOS 相关章节。

高可用策略(HA Policy):云平台内计算、存储、网络资源发生故障或云主机异常停机时,确保相关业务持续稳定运行的机制。启用后,支持自定义云主机高可用策略,确保业务连续性。

相关定义

高可用策略包括以下核心概念:
  • 云主机高可用模式:用于设置云主机异常关机时是否自动重启,支持None和NeverStop两种模式:
    • None:云主机关机时均不会自动重启。
    • NeverStop:
      • 云主机由于自身异常关机时会自动重启。
      • 若由于相关计算、存储、网络等资源发生故障,云主机将根据自定义的故障迁移策略按需迁移至其他物理机HA启动。
      • 手动关机或定时任务触发的计划性关机后,云主机不会自动重启。
  • 云主机高可用故障迁移策略:用于设置云主机相关计算、存储、网络等资源发生故障时是否迁移云主机至其他物理机启动。
    故障迁移策略支持检测以下资源状态:
    • 管理网络连接状态:
      • 检测云主机所在物理机与管理节点之间的网络连接状态。
      • 若管理节点自身故障、或管理网络中断,均会导致管理网络连接状态故障。
    • 存储网络连接状态 :
      • 检测云主机访问其系统盘所在主存储资源的网络连接状态。
      • 若云主机系统盘所在主存储自身故障、或存储网络中断,均会导致云主机存储网络连接状态故障。
    • 业务网卡状态 :
      • 若业务云主机二层网络关联的物理机业务网卡/业务网卡直连的交换机网口发生故障,均会导致云主机业务网卡故障。
    基于资源状态检测,ZStack Cloud可判断4种故障场景,并支持用户自定设置不同的故障场景下是否触发云主机高可用迁移:
    故障场景 管理网络连接状态 存储网络连接状态 业务网卡状态 故障时是否迁移云主机
    场景一:业务网卡状态异常 正常 正常 故障 开启/关闭
    场景二:存储网络连接异常 正常 故障 正常 开启/关闭
    场景三:存储网络连接异常、业务网卡异常 正常 故障 故障 如场景一、场景二均为关闭,此处固定为关闭;如场景一、场景二任一为开启,此处默认固定为开启
    场景四:管理网络连接异常 故障 正常 正常 关闭,不支持开启
    说明: 故障时是否迁移云主机的策略仅对高可用模式为NeverStop的云主机生效。

功能原理

ZStack Cloud高可用策略主要包括以下两种机制:
  • 轮询检测云主机运行状态,若云主机由于自身异常关机,将检测云主机的高可用模式。若云主机为NeverStop模式,将在所在物理机或其他物理机上重启该云主机。
    图1所示:


    图1 云主机自身异常关机后高可用启动
  • 轮询检测云主机所在物理机状态,若物理机管理网络连接状态、存储网络连接状态、业务网卡状态任一状态异常,将检测云主机故障迁移策略以及云主机高可用模式。若对应故障迁移开关已打开,且云主机高可用模式为Neverstop,云主机将迁至其他物理机上启动运行。
    图2所示:


    图2 物理机业务网卡故障后云主机高可用启动

功能优势

高可用策略具备以下优势:
  • 全面&强大:覆盖所有主流高可用场景,包括各类故障场景以及意外停机场景。通过高可用机制确保用户关键业务稳定性和连续性。
  • 灵活&可视化:提供直观简单的真值表,支持一键配置故障迁移策略,组合全局粒度和云主机粒度高可用模式配置,可极大提高业务高可用配置的灵活度。

应用场景

以下介绍高可用策略的应用场景。

  • 物理机业务网卡故障场景:
    希望物理机业务网卡故障时,所有关联的云主机迁移至其他物理机,保障业务高可用。
    • 例如:用户部署业务云主机承载MySQL数据库服务,要求云主机不允许出现业务长时间宕机的情况。可将这台云主机高可用模式设置为NeverStop,且设置业务网卡状态故障时触发迁移。在确保平台内物理机资源充足情况下,当业务云主机所在物理机业务网卡故障时,云主机将迁至其他物理机上启动运行,不影响业务运行。
  • 云主机异常停机场景:
    希望云主机异常停机时能自动HA启动。
    • 例如:用户部署业务云主机运行公司重要业务,为避免诸如物理机掉电、云主机过载等各类因素导致云主机停机、业务无法自动恢复,可将这些云主机高可用模式设置为NeverStop。当云主机停机时触发高可用机制立刻重新启动,保障业务连续性。