可靠性
计算高可用
ZStack ZSphere采用基于KVM的硬件虚拟化技术,将一组硬件服务器虚拟化为一个逻辑资源池,并以集群进行划分管理。ZStack ZSphere持续对集群内所有物理主机与虚拟机运行状况进行检测。一旦某台主机发生故障,ZStack ZSphere管理节点会持续进行检测,确定此主机宕机后,会立即在集群内另一台主机上重启所有受影响的虚拟机,保障业务连续性。ZStack ZSphere计算高可用无需专门的备用硬件或集成其它软件,就可将停机时间和IT服务中断时间降至最低程度,并且避免了因特定操作系统或特定应用程序做故障切换带来的成本和复杂性。
存储高可用
网络高可用
虚拟网络高可用
网卡Bond是将两个或更多物理网卡捆绑在一起,作为逻辑上的单一网卡接口使用。ZStack ZSphere支持两种网口聚合模式:
- 链路聚合模式 (mode
4):支持聚合1~8个物理网口,聚合的网口共享相同的速率和双工设定。网络流量将平均发送至各网口处理,实现负载均衡。链路聚合模式通过哈希运算决定网络流量出口,支持三种哈希策略:
- layer2+3:根据源MAC地址、目的MAC地址和IP地址进行哈希运算,决定数据包的发送网口。
- layer3+4:根据IP地址和端口进行哈希运算,决定数据包的发送网口。支持TCP/IP协议栈。
- layer2:根据源MAC地址和目的MAC地址进行哈希运算,决定数据包的发送网口。
- 主备模式 (mode 1):支持聚合1~8个物理网口。聚合后,其中一个网口作为主网口,其它网口作为备网口。网络流量均由主网口处理,主网口故障时,自动切换由备网口处理,避免业务中断。
管理高可用
管理节点负责整个ZStack ZSphere的资源管控、监控、调度、分配和回收。管理节点若出现宕机,管理服务将不可用,直接影响到ZStack ZSphere的运维管理、监控报警、用户访问、自动化任务执行等,对平台或用户的运维工作产生较大影响。因此,ZStack ZSphere管理服务保证高可用性十分重要。
双管理节点高可用
ZStack ZSphere提供双管理节点高可用方案,实现如下目标:
- 安装两个管理节点,其中任何一个节点掉电不影响系统工作,UI能够正常使用并执行各种任务。
- 数据库(包括MySQL和监控数据库)在掉电的节点恢复后能自动同步,无需人工参与。
- 系统能长时间在单节点情况下工作。
- 双管理节点的部署运维和单管理节点一样简单方便。
为解决管理节点高可用难题,我们提供一个HA进程在管理节点上运行。该进程负责整个管理节点环境的初始化、配置、运维、Watchdog等功能。
- HA进程提供系统配置功能,提供命令行接口,可调用HA命令将系统配置成高可用环境。
- HA进程负责监控管理节点上的关键服务(管理节点进程、UI进程、MySQL)。当任何一个服务宕机,立即通过Keepalived触发VIP迁移,然后尝试恢复宕机服务。
- HA进程对Keepalived进程进行Watchdog,确保该进程持续运行。
- HA进程提供命令,打印出集群的健康信息。
- 引入一个网关做仲裁,避免双管理节点的脑裂问题。
如图 1所示:图 1. 双管理节点HA机制


管理节点监控
管理节点监控支持显示多个管理节点的管理节点IP、节点状态、VIP和管理服务状态。详情参考:管理节点监控。
管理节点监控数据采集
管理节点监控数据采集机制,详情参考:监控报警。
