可靠性

计算高可用

ZStack Cube 旗舰版采用基于KVM的硬件虚拟化技术,将一组硬件服务器虚拟化为一个逻辑资源池,并以集群进行划分管理。ZStack Cube 旗舰版持续对集群内所有物理主机与云主机运行状况进行检测。一旦某台物理机发生故障,云平台管理节点会持续进行检测,确定此物理机宕机后,会立即在集群内另一台物理机上重启所有受影响的云主机,保障业务连续性。云平台计算高可用无需专门的备用硬件或集成其它软件,就可将停机时间和IT服务中断时间降至最低程度,并且避免了因特定操作系统或特定应用程序做故障切换带来的成本和复杂性。

图 1所示:
图 1. 计算高可用


存储高可用

网络高可用

虚拟网络高可用

扁平网络通过网桥连接到服务器Bond口,高可用依赖于服务器网卡。

VPC网络采用定制的路由器镜像创建一台云主机作为VPC路由器,三层流量均经过VPC路由器进行转发。一旦VPC路由器所在物理机宕机,数分钟之后会在其他正常节点重新启动,保证业务连续性。不同租户使用不同的VPC路由器,即使有物理机宕机,也仅影响其上运行VPC路由器的租户数分钟,对其他租户无任何影响,缩小故障影响范围。

VPC路由器双机主备

VPC路由器支持双机主备模式,可在创建VPC路由器时按需选择。主备路由器会不断进行心跳检测,若主路由器发生故障,备路由器将提升为主路由器,所有流量秒级进行切换,最大程度保障业务连续性。

VPC路由器高可用组

VPC路由器高可用组主备切换基于Linux Keepalived实现。Keepalived用于检测服务器状态。若有一台Web服务器宕机或工作出现故障,Keepalived将检测到,并将有故障的服务器从系统中剔除,同时使用其他服务器代替该服务器工作,当服务器工作正常后,Keepalived自动将服务器加入到服务器群中。这些工作全部自动完成,无需人工干涉,仅需人工做的是修复故障服务器。网络服务各自独立。

负载均衡高可用

负载均衡是一种把前端访问流量转发后端服务器的设备,通过对后端服务器的横向扩容,可以解决后端服务器的单点故障。但如果负载均衡器本身只有一个实例,那么整个业务的单点故障仍然存在。
  • 性能共享型实例:由VPC路由器提供负载均衡服务,可通过VPC高可用组实现负载均衡高可用。
  • 性能独享型实例:由负载均衡实例提供负载均衡服务,可通过创建双节点实例实现多实例负载均衡高可用。主实例发生故障时,备实例能迅速接管服务,无缝切换,极大降低业务中断风险。
    图 1所示:
    图 1. 双节点负载均衡实例高可用


管理高可用

管理节点负责整个平台的资源管控、监控、调度、分配和回收。管理节点若出现宕机,管理服务将不可用,直接影响到平台的运维管理、监控报警、租户访问、自动化任务执行等,对平台或租户的运维工作产生较大影响。因此,平台管理服务保证高可用性十分重要。

双管理节点高可用

平台提供双管理节点高可用方案,实现如下目标:
  1. 安装两个管理节点,其中任何一个节点掉电不影响系统工作,UI能够正常使用并执行各种任务。
  2. 数据库(包括MySQL和监控数据库)在掉电的节点恢复后能自动同步,无需人工参与。
  3. 系统能长时间在单节点情况下工作。
  4. 双管理节点的部署运维和单管理节点一样简单方便。
为解决管理节点高可用难题,我们提供一个HA进程在管理节点上运行。该进程负责整个管理节点环境的初始化、配置、运维、Watchdog等功能。
  • HA进程提供系统配置功能,提供命令行接口,可调用HA命令将系统配置成高可用环境。
  • HA进程负责监控管理节点上的关键服务(管理节点进程、UI进程、MySQL)。当任何一个服务宕机,立即通过Keepalived触发VIP迁移,然后尝试恢复宕机服务。
  • HA进程对Keepalived进程进行Watchdog,确保该进程持续运行。
  • HA进程提供命令,打印出集群的健康信息。
  • 引入一个网关做仲裁,避免双管理节点的脑裂问题。
图 1所示:
图 1. 双管理节点HA机制


管理节点监控

管理节点监控支持显示多个管理节点的管理节点IP、节点状态、VIP和管理服务状态。详情参考:管理节点监控

管理节点监控数据采集

管理节点监控数据采集机制,详情参考:监控报警

系统配置备份

系统配置备份对于云平台来说至关重要。当云平台发生异常,或相关配置丢失时,可通过系统配置的备份数据进行恢复。

ZStack Cube 旗舰版提供备份服务模块,支持本地灾备、异地灾备、公有云灾备多种灾备方案,详情参考:灾备服务

业务高可用

云主机调度策略

云主机调度策略可为云主机分配物理机资源编排策略,用于保障业务高性能和高可用。详情参考:云主机调度策略

双机热备

对于需要实时在线的业务系统,支持通过镜像/快照、CDP等技术,部署主备业务系统,在主业务系统故障时,实现秒级故障切换。详情参考:镜像/快照CDP服务

负载均衡

基于业务软件自身的高可用架构,业务软件、数据库等组件高可用多机部署,应用前端基于负载均衡访问,在应用服务器故障时,实现自主故障切换。 详情参考:负载均衡