高可用策略
概述
高可用策略(HA Policy):云平台内计算、存储、网络资源发生故障或云主机异常停机时,确保相关业务持续稳定运行的机制。启用后,支持自定义云主机高可用策略,确保业务连续性。
相关定义
高可用策略包括以下核心概念:
- 云主机高可用模式:用于设置云主机异常关机时是否自动重启,支持None和NeverStop两种模式:
- None:云主机关机时均不会自动重启。
- NeverStop:
- 云主机由于自身异常关机时会自动重启。
- 若由于相关计算、存储、网络等资源发生故障,云主机将根据自定义的故障迁移策略按需迁移至其他物理机HA启动。
- 手动关机或定时任务触发的计划性关机后,云主机不会自动重启,包括:
- 通过UI界面手动执行停止云主机、强制停止云主机、关闭云主机电源等操作;
- 进入云主机操作系统,手动执行
shutdown、poweroff、halt等命令; - 创建关闭云主机定时任务,触发计划性关机。
- 云主机高可用故障迁移策略:用于设置云主机相关计算、存储、网络等资源发生故障时是否迁移云主机至其他物理机启动。故障迁移策略支持检测以下资源状态:
- 管理网络连接状态:
- 检测云主机所在物理机与管理节点之间的网络连接状态。
- 若管理节点自身故障、或管理网络中断,均会导致管理网络连接状态故障。
- 存储网络连接状态 :
- 检测云主机访问其系统盘所在主存储资源的网络连接状态。
- 若云主机系统盘所在主存储自身故障、或存储网络中断,均会导致云主机存储网络连接状态故障。
- 业务网卡状态 :
- 若业务云主机二层网络关联的物理机业务网卡/业务网卡直连的交换机网口发生故障,均会导致云主机业务网卡故障。
基于资源状态检测,ZStack Cube 旗舰版可判断4种故障场景,并支持用户自定设置不同的故障场景下是否触发云主机高可用迁移:故障场景 管理网络连接状态 存储网络连接状态 业务网卡状态 故障时是否迁移云主机 场景一:业务网卡状态异常 正常 正常 故障 开启/关闭 场景二:存储网络连接异常 正常 故障 正常 开启/关闭 场景三:存储网络连接异常、业务网卡异常 正常 故障 故障 如场景一、场景二均为关闭,此处固定为关闭;如场景一、场景二任一为开启,此处默认固定为开启 场景四:管理网络连接异常 故障 正常 正常 关闭,不支持开启 Note: 故障时是否迁移云主机的策略仅对高可用模式为NeverStop的云主机生效。 - 管理网络连接状态:
功能原理
功能优势
高可用策略具备以下优势:
- 全面&强大:覆盖所有主流高可用场景,包括各类故障场景以及意外停机场景。通过高可用机制确保用户关键业务稳定性和连续性。
- 灵活&可视化:提供直观简单的真值表,支持一键配置故障迁移策略,组合全局粒度和云主机粒度高可用模式配置,可极大提高业务高可用配置的灵活度。
应用场景
以下介绍高可用策略的应用场景。
- 物理机业务网卡故障场景:希望物理机业务网卡故障时,所有关联的云主机迁移至其他物理机,保障业务高可用。
- 例如:用户部署业务云主机承载MySQL数据库服务,要求云主机不允许出现业务长时间宕机的情况。可将这台云主机高可用模式设置为NeverStop,且设置业务网卡状态故障时触发迁移。在确保云平台内物理机资源充足情况下,当业务云主机所在物理机业务网卡故障时,云主机将迁至其他物理机上启动运行,不影响业务运行。
- 云主机异常停机场景:希望云主机异常停机时能自动HA启动。
- 例如:用户部署业务云主机运行公司重要业务,为避免诸如物理机掉电、云主机过载等各类因素导致云主机停机、业务无法自动恢复,可将这些云主机高可用模式设置为NeverStop。当云主机停机时触发高可用机制立刻重新启动,保障业务连续性。
管理高可用策略
在ZStack Cube 旗舰版主菜单,点击,进入高可用策略界面。
高可用策略支持以下操作:
| 操作 | 描述 |
|---|---|
| 启用高可用策略 | 启用云主机高可用策略。 |
| 停用高可用策略 | 停用云主机高可用策略。 Note: 停用高可用策略后,即使是高可用模式为NeverStop的云主机在停机后也不再触发自动重启,可能导致业务中断,请谨慎操作。 |
高可用策略|故障迁移策略
在启用高可用策略页面,或启用高可用策略后总览页面,支持设置各故障场景下云主机高可用迁移策略:
| 故障场景 | 管理网络连接状态 | 存储网络连接状态 | 业务网卡状态 | 故障时是否迁移云主机 |
|---|---|---|---|---|
| 场景一:业务网卡状态异常 | 正常 | 正常 | 故障 | 开启/关闭 |
| 场景二:存储网络连接异常 | 正常 | 故障 | 正常 | 开启/关闭 Note: SharedBlock存储环境下,若此处配置不迁移,存储网络连接状态故障时仍会自动迁移。 |
| 场景三:存储网络连接异常、业务网卡异常 | 正常 | 故障 | 故障 | 如场景一、场景二均为关闭,此处固定为关闭;如场景一、场景二任一为开启,此处默认固定为开启 |
| 场景四:管理网络连接异常 | 故障 | 正常 | 正常 | 关闭,不支持开启 |
Note:
- 故障时是否迁移云主机的策略仅对高可用模式为NeverStop的云主机生效。
- 存储网络连接状态仅支持检测共享存储,暂不支持本地存储。
- 若业务云主机二层网络为VXLAN类型或二层网络使用SR-IOV/智能网卡网络加速模式,关联的物理机业务网卡或其直连的交换机网口状态故障时,暂不支持高可用迁移。
在启用高可用策略页面,或启用高可用策略后总览页面,支持通过修改物理机故障检测策略来修改故障策略检测间隔:
| 物理机故障检测条目 | 描述 |
|---|---|
| 物理机自检间隔 | 默认为5,单位为秒,设置物理机状态自检的间隔。 |
| 物理机自检最大尝试次数 | 默认为6,单位为次,用于设置在指定的最大次数去自检物理机,在最大的尝试测试次数均失败时,会判定物理机网络异常。 |
高可用策略|高级设置
在启用高可用策略页面,或启用高可用策略后总览页面,支持修改高可用策略的高级设置,包括云主机以及物理机两大类高级设置。
| 类目 | 名称 | 描述 |
|---|---|---|
| 云主机 | 云主机跨集群高可用 | 默认为false,用于设置云主机跨集群高可用功能是否启用。若为true,表示允许跨集群探测物理机,实现云主机跨集群高可用。注意: Note:
|
| 高可用尝试启动云主机最大时间间隔 | 默认为300,单位为秒,用于设置 NeverStop 云主机异常关机后,系统执行GC(垃圾回收)任务以实现高可用启动的时间间隔。 | |
| 高可用启动云主机重试时间间隔 | 默认为60,单位为秒,用于设置NeverStop云主机上一次尝试高可用启动失败后,到尝试下一次高可用启动间的时间间隔。 | |
| 高可用云主机状态扫描间隔 | 默认为60,单位为秒,用于设置 NeverStop 云主机高可用启动失败后,下次扫描的时间间隔。 | |
| 高可用云主机启用状态刷新速度级别 | 默认为1,用于设置NeverStop云主机启用状态发生变化时,UI状态列表改变的响应速度,可选值 [-1,5],数字越小表示响应速度越快;数字越大表示响应速度越慢,但低响应速度代表系统忽略更多已过期的状态变化通知,降低系统负载。-1 表示系统不主动改变 UI 状态列表。 | |
| 创建云主机高可用模式默认值 | 默认为NeverStop,用于设置新创建云主机的高可用模式默认值,可选值:None、NeverStop。
Note:
|
|
| 物理机 | 判定物理机失联前尝试连接次数 | 默认为12,单位为次,用于设置系统尝试连接物理机的最大次数,如超过该次数仍无法连接到物理机,则判定该物理机失联。 |
| 判定物理机连接成功Ping返回时间 | 默认为5,单位为秒,用于设置系统Ping物理机并取得返回的时间限制,如果在该时间范围内,系统Ping通物理机并获得返回,则判定系统与物理机成功建立连接。 | |
| 判定物理机恢复连接前最小连接成功次数 | 默认为5,单位为次,用于设置判定失联物理机恢复连接前,系统需要与该物理机成功建立连接的次数,只有达到该次数,系统才会判定该物理机连接正常。 | |
| 物理机连接主存储超时时间 | 默认为 5,单位为秒,如在该时间内物理机无法与主存储连接,则判定物理机连接主存储超时。 | |
| 判定物理机恢复连接的连接成功率 | 默认为50%,系统与失联物理机建立连接时,如出现既有失败、又有成功的情况,成功连接数占尝试连接总数的比例需达到此数值,系统才会判定该物理机连接正常。 | |
| 异常物理机状态刷新间隔 | 默认为5,单位为秒,用于设置系统检测并更新异常物理机状态变化的时间间隔。 |
高可用日志
在ZStack Cube 旗舰版主菜单,点击,进入高可用策略界面。启用高可用策略后,若云平台触发高可用机制,将生成高可用日志。
高可用日志界面显示云平台上所有云主机高可用日志。支持查看任务描述、触发原因、任务结果、云主机名称、云主机所有者、先前物理机、目标物理机、开始时间和完成时间,进一步丰富运维场景,便于审计和追溯。
- 支持选择时间段,查看所选时间段云主机高可用日志。可选的时间段包括:最近7天、最近1个月,默认展示最新7天的日志。
- 支持自定义时间段,查看所设时间段云主机高可用日志。
- 支持通过云主机名称、云主机所有者、先前物理机、目标物理机,搜索云主机高可用日志。
- 支持通过任务结果对云主机高可用日志进行筛选。其中任务结果包括:成功、失败。
- 支持按开始/完成时间对云主机高可用日志进行排序。
- 支持CSV格式导出云主机高可用日志。
- 支持调整每页显示的已完成云主机高可用日志数量,可选值为:10、20、50、100,且支持翻页操作。
- 点击任务描述可进入高可用日志详情页,进一步查看高可用日志详情。


