ZStack Logo

ZStack AIOS

管理高可用策略

完整平台用户手册,包含基础云平台能力与 AIOS 相关章节。

ZStack Cloud主菜单,点击设置 > 平台设置 > 高可用策略,进入高可用策略界面。

高可用策略支持以下操作:
操作 描述
启用高可用策略 启用云主机高可用策略。
停用高可用策略 停用云主机高可用策略。
说明: 停用高可用策略后,即使是高可用模式为NeverStop的云主机在停机后也不再触发自动重启,可能导致业务中断,请谨慎操作。

高可用策略|故障迁移策略

启用高可用策略页面,或启用高可用策略后总览页面,支持设置各故障场景下云主机高可用迁移策略:
故障场景 管理网络连接状态 存储网络连接状态 业务网卡状态 故障时是否迁移云主机
场景一:业务网卡状态异常 正常 正常 故障 开启/关闭
场景二:存储网络连接异常 正常 故障 正常 开启/关闭
说明: SharedBlock存储环境下,若此处配置不迁移,存储网络连接状态故障时仍会自动迁移。
场景三:存储网络连接异常、业务网卡异常 正常 故障 故障 如场景一、场景二均为关闭,此处固定为关闭;如场景一、场景二任一为开启,此处默认固定为开启
场景四:管理网络连接异常 故障 正常 正常 关闭,不支持开启
说明:
  • 故障时是否迁移云主机的策略仅对高可用模式为NeverStop的云主机生效。
  • 存储网络连接状态仅支持检测共享存储,暂不支持本地存储。
  • 若业务云主机二层网络为VXLAN类型或二层网络使用SR-IOV/智能网卡网络加速模式,关联的物理机业务网卡或其直连的交换机网口状态故障时,暂不支持高可用迁移。
启用高可用策略页面,或启用高可用策略后总览页面,支持通过修改物理机故障检测策略来修改故障策略检测间隔:
物理机故障检测条目 描述
物理机自检间隔 默认为5,单位为秒,设置物理机状态自检的间隔。
物理机自检最大尝试次数 默认为6,单位为次,用于设置在指定的最大次数去自检物理机,在最大的尝试测试次数均失败时,会判定物理机网络异常。

高可用策略|高级设置

启用高可用策略页面,或启用高可用策略后总览页面,支持修改高可用策略的高级设置,包括云主机以及物理机两大类高级设置。
类目 名称 描述
云主机 云主机跨集群高可用 默认为false,用于设置云主机跨集群高可用功能是否启用。若为true,表示允许跨集群探测物理机,实现云主机跨集群高可用。注意:
说明:
  • 需提前确认集群间连通性良好,才可启用该功能。
  • 该功能对已开启集群绑定的云主机不生效。
高可用尝试启动云主机最大时间间隔 默认为300,单位为秒,用于设置 NeverStop 云主机异常关机后,系统执行GC(垃圾回收)任务以实现高可用启动的时间间隔。
高可用启动云主机重试时间间隔 默认为60,单位为秒,用于设置NeverStop云主机上一次尝试高可用启动失败后,到尝试下一次高可用启动间的时间间隔。
高可用云主机状态扫描间隔 默认为60,单位为秒,用于设置 NeverStop 云主机高可用启动失败后,下次扫描的时间间隔。
高可用云主机启用状态刷新速度级别 默认为1,用于设置NeverStop云主机启用状态发生变化时,UI状态列表改变的响应速度,可选值 [-1,5],数字越小表示响应速度越快;数字越大表示响应速度越慢,但低响应速度代表系统忽略更多已过期的状态变化通知,降低系统负载。-1 表示系统不主动改变 UI 状态列表。
创建云主机高可用模式默认值 默认为NeverStop,用于设置新创建云主机的高可用模式默认值,可选值:None、NeverStop。
  • None:新创建云主机的高可用模式默认为None,如发生异常关机,云主机不会自动重启。
  • NeverStop:新创建的云主机高可用模式默认为NeverStop:
    • 因自身异常意外关机后,云主机会自动重启。
    • 相关计算、存储、网络发生故障时,云主机可自动迁移到其他物理机启动。
    • 手动关机或定时任务触发的计划性关机后,云主机不会自动重启。
说明:
  • 使用NeverStop模式,请确保平台高可用策略已开启,如未开启,NeverStop模式将无法生效。
  • 支持在创建时或创建后,单独修改云主机的高可用模式,修改后,云主机使用单独设置的高可用模式,不受此默认值影响。
物理机 判定物理机失联前尝试连接次数 默认为12,单位为次,用于设置系统尝试连接物理机的最大次数,如超过该次数仍无法连接到物理机,则判定该物理机失联。
判定物理机连接成功Ping返回时间 默认为5,单位为秒,用于设置系统Ping物理机并取得返回的时间限制,如果在该时间范围内,系统Ping通物理机并获得返回,则判定系统与物理机成功建立连接。
判定物理机恢复连接前最小连接成功次数 默认为5,单位为次,用于设置判定失联物理机恢复连接前,系统需要与该物理机成功建立连接的次数,只有达到该次数,系统才会判定该物理机连接正常。
物理机连接主存储超时时间 默认为 5,单位为秒,如在该时间内物理机无法与主存储连接,则判定物理机连接主存储超时。
判定物理机恢复连接的连接成功率 默认为50%,系统与失联物理机建立连接时,如出现既有失败、又有成功的情况,成功连接数占尝试连接总数的比例需达到此数值,系统才会判定该物理机连接正常。
异常物理机状态刷新间隔 默认为5,单位为秒,用于设置系统检测并更新异常物理机状态变化的时间间隔。