高可用策略

概述

高可用策略(HA Policy):云平台内计算、存储、网络资源发生故障或云主机异常停机时,确保相关业务持续稳定运行的机制。启用后,支持自定义云主机高可用策略,确保业务连续性。

相关定义

高可用策略包括以下核心概念:
  • 云主机高可用模式:用于设置云主机异常关机时是否自动重启,支持None和NeverStop两种模式:
    • None:云主机关机时均不会自动重启。
    • NeverStop:
      • 云主机由于自身异常关机时会自动重启。
      • 若由于相关计算、存储、网络等资源发生故障,云主机将根据自定义的故障迁移策略按需迁移至其他物理机HA启动。
      • 手动关机或定时任务触发的计划性关机后,云主机不会自动重启,包括:
        • 通过UI界面手动执行停止云主机、强制停止云主机、关闭云主机电源等操作;
        • 进入云主机操作系统,手动执行shutdownpoweroffhalt等命令;
        • 创建关闭云主机定时任务,触发计划性关机。
  • 云主机高可用故障迁移策略:用于设置云主机相关计算、存储、网络等资源发生故障时是否迁移云主机至其他物理机启动。
    故障迁移策略支持检测以下资源状态:
    • 管理网络连接状态:
      • 检测云主机所在物理机与管理节点之间的网络连接状态。
      • 若管理节点自身故障、或管理网络中断,均会导致管理网络连接状态故障。
    • 存储网络连接状态 :
      • 检测云主机访问其系统盘所在主存储资源的网络连接状态。
      • 若云主机系统盘所在主存储自身故障、或存储网络中断,均会导致云主机存储网络连接状态故障。
    • 业务网卡状态 :
      • 若业务云主机二层网络关联的物理机业务网卡/业务网卡直连的交换机网口发生故障,均会导致云主机业务网卡故障。
    基于资源状态检测,ZStack Cube 旗舰版可判断4种故障场景,并支持用户自定设置不同的故障场景下是否触发云主机高可用迁移:
    故障场景 管理网络连接状态 存储网络连接状态 业务网卡状态 故障时是否迁移云主机
    场景一:业务网卡状态异常 正常 正常 故障 开启/关闭
    场景二:存储网络连接异常 正常 故障 正常 开启/关闭
    场景三:存储网络连接异常、业务网卡异常 正常 故障 故障 如场景一、场景二均为关闭,此处固定为关闭;如场景一、场景二任一为开启,此处默认固定为开启
    场景四:管理网络连接异常 故障 正常 正常 关闭,不支持开启
    Note: 故障时是否迁移云主机的策略仅对高可用模式为NeverStop的云主机生效。

功能原理

ZStack Cube 旗舰版高可用策略主要包括以下两种机制:
  • 轮询检测云主机运行状态,若云主机由于自身异常关机,将检测云主机的高可用模式。若云主机为NeverStop模式,将在所在物理机或其他物理机上重启该云主机。
    图 1所示:
    图 1. 云主机自身异常关机后高可用启动


  • 轮询检测云主机所在物理机状态,若物理机管理网络连接状态、存储网络连接状态、业务网卡状态任一状态异常,将检测云主机故障迁移策略以及云主机高可用模式。若对应故障迁移开关已打开,且云主机高可用模式为Neverstop,云主机将迁至其他物理机上启动运行。
    图 2所示:
    图 2. 物理机业务网卡故障后云主机高可用启动


功能优势

高可用策略具备以下优势:
  • 全面&强大:覆盖所有主流高可用场景,包括各类故障场景以及意外停机场景。通过高可用机制确保用户关键业务稳定性和连续性。
  • 灵活&可视化:提供直观简单的真值表,支持一键配置故障迁移策略,组合全局粒度和云主机粒度高可用模式配置,可极大提高业务高可用配置的灵活度。

应用场景

以下介绍高可用策略的应用场景。

  • 物理机业务网卡故障场景:
    希望物理机业务网卡故障时,所有关联的云主机迁移至其他物理机,保障业务高可用。
    • 例如:用户部署业务云主机承载MySQL数据库服务,要求云主机不允许出现业务长时间宕机的情况。可将这台云主机高可用模式设置为NeverStop,且设置业务网卡状态故障时触发迁移。在确保云平台内物理机资源充足情况下,当业务云主机所在物理机业务网卡故障时,云主机将迁至其他物理机上启动运行,不影响业务运行。
  • 云主机异常停机场景:
    希望云主机异常停机时能自动HA启动。
    • 例如:用户部署业务云主机运行公司重要业务,为避免诸如物理机掉电、云主机过载等各类因素导致云主机停机、业务无法自动恢复,可将这些云主机高可用模式设置为NeverStop。当云主机停机时触发高可用机制立刻重新启动,保障业务连续性。

管理高可用策略

ZStack Cube 旗舰版主菜单,点击设置 > 平台设置 > 高可用策略,进入高可用策略界面。

高可用策略支持以下操作:
操作 描述
启用高可用策略 启用云主机高可用策略。
停用高可用策略 停用云主机高可用策略。
Note: 停用高可用策略后,即使是高可用模式为NeverStop的云主机在停机后也不再触发自动重启,可能导致业务中断,请谨慎操作。

高可用策略|故障迁移策略

启用高可用策略页面,或启用高可用策略后总览页面,支持设置各故障场景下云主机高可用迁移策略:
故障场景 管理网络连接状态 存储网络连接状态 业务网卡状态 故障时是否迁移云主机
场景一:业务网卡状态异常 正常 正常 故障 开启/关闭
场景二:存储网络连接异常 正常 故障 正常 开启/关闭
Note: SharedBlock存储环境下,若此处配置不迁移,存储网络连接状态故障时仍会自动迁移。
场景三:存储网络连接异常、业务网卡异常 正常 故障 故障 如场景一、场景二均为关闭,此处固定为关闭;如场景一、场景二任一为开启,此处默认固定为开启
场景四:管理网络连接异常 故障 正常 正常 关闭,不支持开启
Note:
  • 故障时是否迁移云主机的策略仅对高可用模式为NeverStop的云主机生效。
  • 存储网络连接状态仅支持检测共享存储,暂不支持本地存储。
  • 若业务云主机二层网络为VXLAN类型或二层网络使用SR-IOV/智能网卡网络加速模式,关联的物理机业务网卡或其直连的交换机网口状态故障时,暂不支持高可用迁移。
启用高可用策略页面,或启用高可用策略后总览页面,支持通过修改物理机故障检测策略来修改故障策略检测间隔:
物理机故障检测条目 描述
物理机自检间隔 默认为5,单位为秒,设置物理机状态自检的间隔。
物理机自检最大尝试次数 默认为6,单位为次,用于设置在指定的最大次数去自检物理机,在最大的尝试测试次数均失败时,会判定物理机网络异常。

高可用策略|高级设置

启用高可用策略页面,或启用高可用策略后总览页面,支持修改高可用策略的高级设置,包括云主机以及物理机两大类高级设置。
类目 名称 描述
云主机 云主机跨集群高可用 默认为false,用于设置云主机跨集群高可用功能是否启用。若为true,表示允许跨集群探测物理机,实现云主机跨集群高可用。注意:
Note:
  • 需提前确认集群间连通性良好,才可启用该功能。
  • 该功能对已开启集群绑定的云主机不生效。
高可用尝试启动云主机最大时间间隔 默认为300,单位为秒,用于设置 NeverStop 云主机异常关机后,系统执行GC(垃圾回收)任务以实现高可用启动的时间间隔。
高可用启动云主机重试时间间隔 默认为60,单位为秒,用于设置NeverStop云主机上一次尝试高可用启动失败后,到尝试下一次高可用启动间的时间间隔。
高可用云主机状态扫描间隔 默认为60,单位为秒,用于设置 NeverStop 云主机高可用启动失败后,下次扫描的时间间隔。
高可用云主机启用状态刷新速度级别 默认为1,用于设置NeverStop云主机启用状态发生变化时,UI状态列表改变的响应速度,可选值 [-1,5],数字越小表示响应速度越快;数字越大表示响应速度越慢,但低响应速度代表系统忽略更多已过期的状态变化通知,降低系统负载。-1 表示系统不主动改变 UI 状态列表。
创建云主机高可用模式默认值 默认为NeverStop,用于设置新创建云主机的高可用模式默认值,可选值:None、NeverStop。
  • None:新创建云主机的高可用模式默认为None,如发生异常关机,云主机不会自动重启。
  • NeverStop:新创建的云主机高可用模式默认为NeverStop:
    • 因自身异常意外关机后,云主机会自动重启。
    • 相关计算、存储、网络发生故障时,云主机可自动迁移到其他物理机启动。
    • 手动关机或定时任务触发的计划性关机后,云主机不会自动重启。
Note:
  • 使用NeverStop模式,请确保平台高可用策略已开启,如未开启,NeverStop模式将无法生效。
  • 支持在创建时或创建后,单独修改云主机的高可用模式,修改后,云主机使用单独设置的高可用模式,不受此默认值影响。
物理机 判定物理机失联前尝试连接次数 默认为12,单位为次,用于设置系统尝试连接物理机的最大次数,如超过该次数仍无法连接到物理机,则判定该物理机失联。
判定物理机连接成功Ping返回时间 默认为5,单位为秒,用于设置系统Ping物理机并取得返回的时间限制,如果在该时间范围内,系统Ping通物理机并获得返回,则判定系统与物理机成功建立连接。
判定物理机恢复连接前最小连接成功次数 默认为5,单位为次,用于设置判定失联物理机恢复连接前,系统需要与该物理机成功建立连接的次数,只有达到该次数,系统才会判定该物理机连接正常。
物理机连接主存储超时时间 默认为 5,单位为秒,如在该时间内物理机无法与主存储连接,则判定物理机连接主存储超时。
判定物理机恢复连接的连接成功率 默认为50%,系统与失联物理机建立连接时,如出现既有失败、又有成功的情况,成功连接数占尝试连接总数的比例需达到此数值,系统才会判定该物理机连接正常。
异常物理机状态刷新间隔 默认为5,单位为秒,用于设置系统检测并更新异常物理机状态变化的时间间隔。

高可用日志

ZStack Cube 旗舰版主菜单,点击设置 > 平台设置 > 高可用策略,进入高可用策略界面。启用高可用策略后,若云平台触发高可用机制,将生成高可用日志。

高可用日志界面显示云平台上所有云主机高可用日志。支持查看任务描述、触发原因、任务结果、云主机名称、云主机所有者、先前物理机、目标物理机、开始时间和完成时间,进一步丰富运维场景,便于审计和追溯。
  • 支持选择时间段,查看所选时间段云主机高可用日志。可选的时间段包括:最近7天、最近1个月,默认展示最新7天的日志。
  • 支持自定义时间段,查看所设时间段云主机高可用日志。
  • 支持通过云主机名称、云主机所有者、先前物理机、目标物理机,搜索云主机高可用日志。
  • 支持通过任务结果对云主机高可用日志进行筛选。其中任务结果包括:成功、失败。
  • 支持按开始/完成时间对云主机高可用日志进行排序。
  • 支持CSV格式导出云主机高可用日志。
  • 支持调整每页显示的已完成云主机高可用日志数量,可选值为:10、20、50、100,且支持翻页操作。
  • 点击任务描述可进入高可用日志详情页,进一步查看高可用日志详情。