物理机

概述

物理机:为云主机实例提供计算、网络、存储等资源的物理主机。该硬件设施是云平台的核心资产,云主机运行在物理机之上。

图 1所示:
图 1. 物理机


添加物理机

ZStack Cloud主菜单,点击资源中心 > 硬件设施 > 计算设施 > 物理机,进入物理机界面。点击添加物理机,弹出添加物理机界面。

支持以下两种方式添加物理机:
  • 手动添加物理机
  • 模板导入物理机

手动添加物理机

可指定单个IP地址逐台添加物理机,也可指定IP范围批量添加物理机。最大允许一次性批量添加500台物理机。

可参考以下示例输入相应内容:
  • 名称:设置物理机名称。命名规则:长度限制1~128字符,输入内容只能包含中文汉字、英文字母、数字、空格和以下7种英文字符 - _ . ( ) : + 且不支持以空格开头或结尾
  • 简介:可选项,备注相关信息
  • 虚拟化技术:选择服务器的Hypervisor类型,包括:KVM、X-Dragon
    • KVM:若服务器采用KVM 虚拟化技术,请选择KVM类型。
    • X-Dragon:若服务器采用阿里云神龙架构,请选择X-Dragon类型。
  • 标签:可选项,可为物理机绑定一个或多个标签
  • 集群:选择物理机所在集群
    Note:
    • 采用KVM虚拟化技术的物理机,仅允许加载到KVM集群。
    • KVM集群允许开启网络加速支持,此时对加载集群的物理机有相关限制:
      • 若集群开启网络加速支持,且关联的二层网络使用智能网卡网络加速模式,此时物理机需含有指定型号的智能网卡,才允许加载到该集群。
    • 采用阿里云神龙架构的物理机,仅允许加载到X-Dragon集群。
    • X-Dragon集群不允许开启网络加速支持。
  • 物理机信息:根据实际情况填写物理机信息,支持两种添加方式:IP地址、IP范围
    • 若选择IP地址方式,可参考以下示例输入相应内容:
      • IP地址:输入物理机IP
      • SSH端口:输入物理机SSH端口,默认为22
      • SSH用户名:输入物理机用户名。默认为root,可根据实际情况输入普通用户的用户名
      • SSH密码:输入用户名匹配的密码
    • 若选择IP范围方式,可参考以下示例输入相应内容:
      • IP范围:输入提前规划的物理机IP范围
      • SSH端口:输入物理机SSH端口,默认为22
        Note: 需确保IP范围内所有物理机SSH端口相同。
      • SSH用户名:输入物理机SSH用户名,默认为root,可根据实际情况输入普通用户的用户名
        Note: 需确保IP范围内所有物理机SSH用户名相同。
      • SSH密码:输入用户名匹配的SSH密码
        Note: 需确保IP范围内所有密码相同。
  • 扫描物理机IOMMU设置:可选项,若开启,将扫描物理机IOMMU设置,用于外接设备透传、外接设备虚拟化等场景。默认不扫描
    Note:
    • 扫描物理机IOMMU设置,将遍历物理机可用的GPU设备、可虚拟化的物理网卡,需提前确保物理机BIOS已开启Intel VT-d或AMD IOMMU选项。
    • 若使用GPU设备透传功能、vGPU虚拟化功能、SR-IOV网卡服务,需扫描物理机IOMMU设置。
    • 首次开启扫描,需重启物理机,以使得该设置在内核生效。
  • Intel EPT硬件辅助:可选项,若开启,将针对Intel CPU启用Intel EPT硬件辅助功能,有效提升CPU性能。默认开启此功能
    Note:
    • 若因服务器CPU型号过旧,导致无法创建云主机或云主机不能显示控制台界面,可关闭此功能。
    • 关闭Intel EPT硬件辅助功能会降低云主机性能。
图 1所示:
图 1. 手动添加物理机


模板导入物理机

下载系统提供的csv格式模板文件,按规定格式填写物理机信息,并上传文件即可批量添加物理机。

可参考以下步骤使用模板导入物理机:
  1. 下载模板文件。

    点击下载模板,下载csv格式模板文件。

    图 2所示:
    图 2. 模板文件


  2. 按规定格式填写物理机信息。

    配置模板包括表头和一行示例,编辑模板时需删除或覆盖该示例。

    可参考以下示例输入相应内容:
    • 名称:设置物理机名称。若未填写,系统默认名称为:HOST-物理机IP地址
    • 简介:可选项,备注相关信息
    • 集群:填写物理机所在集群的UUID
      Note: 模板导入仅支持加载KVM集群。
    • 物理机IP:填写物理机IP地址或IP地址范围
      • IP地址:支持指定单个IP逐台添加物理机。
      • IP地址范围:支持指定IP范围批量添加物理机。
        Note:
        若填写多段物理机IP地址范围,请用逗号隔开,^表示不包含。例如:
        192.168.0.1-192.168.0.100,^192.168.0.3-192.168.0.5
    • 扫描物理机IOMMU设置:可选项,若开启,将扫描物理机IOMMU设置,用于外接设备透传、外接设备虚拟化等场景
      Note:
      • 若填写YES/Yes/yes/Y/y,则开启该功能;若填写NO/No/no/N/n或留空不填,则关闭该功能。
      • 扫描物理机IOMMU设置,将遍历物理机可用的GPU设备、可虚拟化的物理网卡,需提前确保物理机BIOS已开启Intel VT-d或AMD IOMMU选项。
      • 若使用GPU设备透传功能、vGPU虚拟化功能、SR-IOV网卡服务,需扫描物理机IOMMU设置。
      • 首次开启扫描,需重启物理机,以使得该设置在内核生效。
    • Intel EPT硬件辅助:可选项,若开启,将针对Intel CPU启用Intel EPT硬件辅助功能,有效提升CPU性能
      Note:
      • 若填写YES/Yes/yes/Y/y,则开启Intel EPT硬件辅助虚拟化功能;若填写NO/No/no/N/n或留空不填,则关闭Intel EPT硬件辅助虚拟化功能。
      • 若因服务器CPU型号过旧,导致无法创建云主机或云主机不能显示控制台界面,可关闭此功能。
      • 关闭Intel EPT硬件辅助功能会降低云主机性能。
    • SSH端口:填写SSH端口。若未填写,系统默认SSH端口为:22
    • SSH用户名:填写物理机SSH用户名
    • SSH密码:填写用户名匹配的SSH密码
  3. 上传模板文件。

    模板文件填写完成后,且确保语法无误后,点击上传文件或将文件拖拽到浏览器,将模板文件上传到云平台。

    图 3所示:
    图 3. 模板导入物理机


  4. 通过模板文件批量添加物理机。

    确保模板文件内容、语法无误的情况下,点击确定按钮,云平台将依据模板文件开始添加物理机。

管理物理机

ZStack Cloud主菜单,点击资源中心 > 硬件设施 > 计算设施 > 物理机,进入物理机界面。

物理机支持以下操作:
操作 描述 物理机状态
添加物理机 添加一个或多个物理机。 /
编辑物理机 编辑物理机名称、简介信息。 /
启用物理机 将处于停用状态的物理机启用。 停用
停用物理机 将处于启用状态的物理机停用。
Note: 物理机停用后,该物理机上原有资源不受影响,但申请新资源时不可作为候选物理机。
启用
重连物理机 重新连接物理机。
Note: 重连物理机操作一般用于物理机配置更新后。例如:物理机内存或者硬盘更新后,可通过重连物理机来更新数据库。
ALL
进入维护模式 物理机进入系统维护状态,可对此状态下的物理机进行物理停机、故障修复等操作。
  • 若主存储为本地存储:物理机进入维护模式后,其上云主机会停止。
  • 若主存储为共享存储:物理机进入维护模式后,其上云主机会自动迁移。
Note: 共享存储场景下,物理机进入维护模式,用户可自行设置迁移云主机失败策略。设置方法:
进入设置 > 平台设置 > 全局设置 > 高级设置 > 物理机,设置维护模式下迁移云主机失败策略
  • 若选择强制停止云主机:物理机进入维护模式,共享存储上的云主机会自动迁移到其它物理机上。未迁移的云主机将会被强制关闭。
  • 若选择非强制停止云主机:物理机进入维护模式,共享存储上的云主机会自动迁移到其它物理机上。如果物理机上还存在运行中的云主机,则进入维护模式失败。
已连接
添加聚合口 对物理机上的物理网口进行聚合操作,实现网口高可用或业务负载均衡,支持主备、链路聚合两种聚合模式。
  • 主备模式支持聚合1-2个物理网口,建议聚合2个网口,一个网口作为主网口,其余网口作为备网口,主网口默认处理全部网络流量,主网口故障时,由备网口处理全部网络流量。
  • 链路聚合模式支持聚合1-8个物理网口,建议聚合至少2个网口,聚合的网口享有相同的速率和双工设定。网络流量平均发送至各网口处理,实现负载均衡。链路聚合模式下,网络流量出口通过哈希运算决定,具体哈希策略如下:
    • layer2+3:根据源 MAC 地址、目的 MAC 地址和 IP 地址进行哈希运算,决定数据包的发送网口。
    • layer3+4:根据 IP 地址和端口进行哈希运算,决定数据包的发送网口。支持 TCP/IP 协议栈。
    • layer2:根据源 MAC 地址和目的 MAC 地址进行哈希运算,决定数据包的发送网口。
Note: 同一聚合口中的物理网口速率需一致。
ALL
开机 将物理机开机。 关机
关机 将物理机关机。
Note:
  • 关闭物理机可能会导致其上运行的云主机、VPC路由器、负载均衡实例等资源关机。为确保业务连续性和安全性,建议提前将物理机置入维护模式。
  • 若物理机同时被用作Ceph主存储的Mon节点,关闭物理机会同时关闭Ceph主存储Mon节点服务,影响存储集群稳定性,从而可能造成数据丢失。
  • 若物理机已被指定为迁移服务器,关闭物理机会导致其上正在执行的迁移任务失败。
开机/未知
重启 重新启动物理机。
Note:
  • 重启物理机可能会影响其上云主机、VPC路由器、负载均衡实例等资源的正常运行。为确保业务连续性和安全性,建议提前将物理机置入维护模式。
  • 若物理机同时被用作Ceph主存储的Mon节点,重启物理机会同时重启Ceph主存储Mon节点服务,影响存储集群稳定性,从而可能造成数据丢失。
  • 若物理机已被指定为迁移服务器,重启物理机会导致其上执行的迁移任务失败。
开机/未知
进入Web终端 登录物理机Web终端,对物理机进行操作。 开机/未知
绑定标签 为物理机绑定标签,选中一个或多个物理机。
Note:
  • 单个资源最多支持绑定50个标签,反之,单个标签支持绑定的资源数量无限制。
  • 标签-资源支持多对多绑定关系。
  • 租户创建的标签只能绑定到所属租户的资源,管理员标签可绑定到所有资源。
  • 管理员支持解绑/删除租户标签。
  • 资源标签按照绑定时间或标签名称(符号>数字>中文>英文)进行排序,可在设置 > 全局设置 > 基本设置中修改标签排序方式,默认按标签名称排序。
ALL
解绑标签 解除绑定物理机上的标签。
Note:
  • 管理员标签由管理员创建,归管理员所有,租户标签由租户创建,归租户所有。
  • 租户创建的标签只能绑定到所属租户的资源,管理员标签可绑定到所有资源。
  • 管理员支持解绑/删除租户标签。
  • 项目内的标签归属于项目所有,项目内所有人(项目负责人/项目管理员/项目成员)均可操作。
  • 标签暂不支持更改所有者操作。
  • 资源更改所有者,其上所有租户标签将会解绑,管理员标签不受影响。
  • 云平台无缝升级后,已有旧标签将自动更新,以最新方式展示标签。若有异常,请刷新浏览器或重新创建标签。
  • 支持将单个资源上的批量标签解绑,也支持将单个标签上的批量资源解绑。
  • 租户只能解绑所属租户资源上的标签,管理员可解绑所有资源上的标签。
ALL
更新IPMI信息 修改物理机IPMI用户名和密码。
Note: 仅支持修改电源状态未知的物理机IPMI信息。
未知
更新SSH密码 更新物理机的SSH密码,密码更新后将自动重连物理机。 /
删除物理机 删除物理机。
Note: 删除物理机需要注意以下情况:
  • 删除物理机,将会停止该物理机上所有云主机。
  • 若主存储为本地存储:
    • 若物理机所属集群挂载了本地存储(Local Storage),将同时删除物理机上的全部云主机和云盘。
    • 即使将已删除的物理机重新添加至云平台,系统也将重新部署该物理机,若之前数据库未备份,相关业务数据将无法恢复。
  • 若主存储为共享存储:
    • 若已关闭云主机高可用模式

      删除云主机所在的物理机后,相应的云主机会停止。

    • 若已开启云主机高可用模式

      删除云主机所在的物理机后,如其它物理机资源允许,该物理机上设置高可用的云主机会先停止,然后迁移到其它物理机上自动启动,且不会影响数据安全性;若物理机资源不足,相应的云主机会停止。

    • 删除物理机对共享存储上的数据云盘无影响。
  • 若物理机已被征用为迁移服务器,删除物理机将同时删除相应的迁移服务器,且该迁移服务器上正在执行的迁移任务将自动取消。
/

物理机详情

物理机关联资源

ZStack Cloud主菜单,点击资源中心 > 硬件设施 > 计算设施 > 物理机,进入物理机界面。点击物理机名称,进入物理机详情页,点击关联资源,进入关联资源子页面。

该页面以列表形式展示物理机的关联资源。

云主机

该页面展示创建在当前物理机上的云主机列表。点击对应的操作按钮,可对云主机执行各种操作。

SDN实例

该页面展示启动在当前物理机上的SDN实例列表。点击对应的操作按钮,可对SDN实例执行各种操作。

块设备

该页面展示当前物理机上检测到的块设备列表,可直接透传给云主机使用,详情可参考云主机加载块设备章节。点击对应的操作按钮,可对块设备执行各种操作。例如:
操作 描述
加载云主机 将块设备作为存储介质,直接透传给云主机使用。
卸载云主机 将块设备从云主机卸载。
Note: 此操作将导致读写业务中断,可能影响业务连续性,请谨慎操作。

物理网卡

该页面包含两个子页面:物理网卡聚合口

物理网卡子页面展示当前物理机上检测到的全部物理网卡列表,点击对应的操作按钮,可对物理网卡执行各种操作,例如:
操作 描述
编辑 修改物理网卡的名称和简介。
修改IP地址 修改物理网卡IP地址。
Note: 已被添加到聚合口、使用管理网IP地址,或正在被二层网络使用的物理网卡不支持该操作。
SR-IOV切割

将一张物理网卡虚拟化切割成多张VF类型网卡,切割后可直接将VF网卡加载给云主机使用。

切割前需确保:
  1. 此物理网卡支持SR-IOV切割。
  2. 待切割物理网卡所在物理机的BIOS中已开启Intel VT-d/AMD IOMMU功能和SR-IOV功能。
  3. 待切割物理网卡所在物理机的IOMMU就绪状态为可用
Note:
  • 若物理网卡已在聚合口中,当聚合口中的网卡数量大于2,将不能SR-IOV切割此物理网卡。
  • 若物理网卡已在聚合口中,SR-IOV切割此物理网卡时,将同时对聚合口中的所有网卡执行切割。
  • 若聚合口中已有被SR-IOV切割的物理网卡,则该聚合口中无法再添加或删除物理网卡。
  • 物理网卡被SR-IOV切割后,将不能被添加进有未切割网卡的聚合口。
SR-IOV还原 将已SR-IOV切割的物理网卡还原。
Note:
  1. 请先确保当前物理网卡切割的VF网卡没有被资源使用,否则将还原失败。
  2. 若物理网卡已在聚合口中,SR-IOV还原此物理网卡时,将同时对聚合口中的所有网卡进行还原。
修改物理网络类型 为物理网卡增添或删除网络类型标签。
Note: 管理网网口由系统自动标记,不支持自定义添加或删除管理网络标签。
查看LLDP 查看与该网卡连接的对端设备信息。

查看对端设备信息前,需确保网卡支持LLDP功能并且对端交换机设备已启用LLDP。

推荐硬件规格名单:
  • 交换机:华为交换机、华三交换机、盛科交换机。
  • 网卡:Intel 82599ES、Intel x710、Intel x722、Mellanox CX4。
Note: LLDP功能支持的OS类型:h84r、x86_KylinV10P3。
修改网卡LLDP模式 修改网卡LLDP模式。
支持以下四种LLDP模式:
  • 仅接收:默认选择此模式,仅解析并展示本端口接收到的对端 LLDP 信息。
  • 仅发送:仅发送本端口的 LLDP 信息,但不解析接收到的 LLDP 信息。此模式下无法查看对端设备信息。
  • 接收并发送:解析并展示本端口接收到的对端 LLDP 信息,同时向与本端连接的对端设备 发送本端口 LLDP 信息。
  • 禁用:不解析接收到的 LLDP 信息,也不发送任何本端口的 LLDP 信息。此模式下无法查看对端设备信息。
聚合口子页面展示物理机上已创建的聚合网口,用户可展开聚合口查看其中添加的物理网口信息。点击对应的操作按钮,可对聚合口执行各种操作,例如:
操作 描述
添加聚合口 对物理机上的物理网口进行聚合。
编辑聚合口 修改聚合口的简介。
Note: 聚合口名称不支持修改。
修改聚合口 修改聚合口信息,包括聚合模式、IPv4地址、子网掩码,和聚合的物理网口。
Note:
  • 修改聚合口将导致网络暂时中断,请谨慎操作。
  • 正在被二层网络使用的聚合口不支持该操作。
  • 使用管理网IP地址的聚合口不支持该操作。
添加物理网口 添加物理网口到当前聚合口。
Note:
  • 聚合模式为主备模式时,最多可添加2个物理网口;聚合模式为链路聚合模式时,最多可添加8个物理网口。
  • 添加物理网口将导致网络暂时中断,请谨慎操作。
  • 正在被二层网络使用的聚合口不支持该操作。
  • 使用管理网IP地址的聚合口不支持该操作。
  • 同一聚合口中的物理网口速率需一致。
  • 建议选择类型、厂商、型号一致的物理网口。
移出物理网口 将物理网口移出当前聚合口。
Note:
  • 聚合口中至少需保留1个物理网口,不能全部移出。
  • 移出物理网口将导致网络暂时中断,请谨慎操作。
  • 正在被二层网络使用的聚合口不支持该操作。
  • 使用管理网IP地址的聚合口不支持该操作。
修改物理网络类型 为聚合口增添或删除网络类型标签。
Note: 管理网网口由系统自动标记,不支持自定义添加或删除管理网络标签。
删除聚合口 删除已创建的聚合口。
Note:
  • 删除后,该聚合口中的物理网口将全部解散。
  • 删除聚合口将导致该聚合口上的网络中断,请谨慎操作。
  • 正在被二层网络使用的聚合口不支持删除。
  • 使用管理网IP地址的聚合口不支持删除。

HBA设备

该页面展示当前物理机上检测到的HBA设备列表,用户可查看HBA名称、类型、端口状态、端口速率、支持速率和支持的服务类别等信息。

物理GPU设备

该页面展示当前物理机上检测到的物理GPU设备列表,可直接透传给云主机使用,也可虚拟化切割成vGPU透传给云主机使用。点击对应的操作按钮,可对物理GPU设备执行各种操作。例如:
操作 描述
启用物理GPU 启用物理GPU设备,启用后该物理GPU设备可直接透传给云主机使用。
停用物理GPU 停用物理GPU设备,停用后该物理GPU设备不可继续透传给云主机使用。
Note: 正在被云主机使用的物理GPU设备可以正常使用,不受影响,直至被卸载。
设置共享模式 设置物理GPU设备的共享模式,支持全局共享、指定共享、不共享。
虚拟化切割 将未透传的物理GPU设备,虚拟化切割为指定规格的vGPU设备。不同厂商的物理GPU虚拟化切割方式略有不同。
  • NVIDIA:支持按照所选切割规格,单独虚拟化切割NVIDIA物理GPU。
  • AMD:支持按照所选切割数量,同时虚拟化切割当前物理机上所有AMD物理GPU。
Note: 虚拟化切割物理GPU设备需要满足以下条件:
  • 确保该物理GPU型号支持虚拟化切割。
  • 确保该物理GPU未透传给云主机使用。
  • 确保该物理机BIOS已开启Intel VT-d / AMD IOMMU功能,且物理机内核已开启IOMMU支持。
  • 确保云平台中添加的物理机IOMMU就绪状态为可用
虚拟化还原 将vGPU设备虚拟化还原为物理GPU设备。不同厂商的物理GPU虚拟化还原方式略有不同。
  • NVIDIA:虚拟化还原NVIDIA vGPU需确保此物理GPU相关的vGPU已经全部从云主机卸载。
  • AMD:虚拟化还原AMD vGPU需确保当前物理机上所有AMD vGPU全部已经从云主机卸载。
Note: 确保该物理GPU切割成的vGPU已全部从云主机卸载,才可执行虚拟化还原操作。
Note:
  • 支持被识别并透传给云主机的物理GPU型号详见本节附录
  • 支持虚拟化切割的GPU型号详见本节附录
  • 为正常使用GPU/vGPU功能,需为GPU设备安装驱动,驱动版本详见本节附录

vGPU设备

该页面展示当前物理机上检测到的vGPU设备列表,可直接透传给云主机使用,详情可参考典型使用流程章节。点击对应的操作按钮,可对vGPU设备执行各种操作。例如:
操作 描述
启用vGPU 启用vGPU设备,启用后该vGPU设备可直接透传给云主机使用。
停用vGPU 停用vGPU设备,停用后该vGPU设备不可继续透传给云主机使用。
Note: 正在被云主机使用的vGPU设备可以正常使用,不受影响,直至被卸载。
设置共享模式 设置vGPU设备的共享模式,支持全局共享、指定共享、不共享。

USB设备

该页面展示当前物理机上检测到的USB设备列表,可直接透传给云主机使用,详情可参考云主机加载USB设备章节。点击对应的操作按钮,可对USB设备执行各种操作。例如:
操作 描述
修改设备名 修改USB设备显示名称。
启用USB设备 启用USB设备,启用后可加载给云主机使用。
停用USB设备 停用USB设备,停用后此USB设备不可加载给云主机使用。
Note: 正在被云主机使用的设备可以正常使用,不受影响,直至被卸载。
加载云主机 将USB设备直接透传给云主机使用,支持直连和转发两种模式。
  • 直连:将此云主机所在物理机上的USB设备加载到云主机,迁移云主机时需要卸载此USB设备。
  • 转发:将此云主机所在区域内物理机上的USB设备加载到云主机,迁移云主机时不需要卸载此USB设备。
Note: 将USB设备加载到云主机使用,需要注意以下情况:
  • 同一个USB设备只能透传给一台云主机使用。
  • 同一台云主机最多支持加载1个USB1.0设备、最多支持加载6个USB2.0设备、最多支持加载4个USB3.0设备。
  • 运行中状态或本地存储已停止状态的云主机只支持加载云主机所在物理机上的可用USB设备,不支持跨物理机加载USB设备。
  • 共享存储上已停止状态的云主机支持加载云主机所在集群内某台物理机上的多个USB设备。
卸载云主机 将USB设备从云主机卸载。
Note: 此操作将导致该USB设备的读写业务中断,请谨慎操作。

SE设备

该页面展示当前物理机上已虚拟化切割的SE设备。SE是处理器内置安全IP核,为基础软件、应用系统提供安全、合规核标准化的密码支撑能力。目前,仅识别LoongArch和Hygon物理机上的SE设备。未对SE设备进行虚拟化切割时,该页面显示为空,点击对应的操作按钮可执行各种操作。例如:
操作 描述
创建SE设备 对物理机上的SE设备进行虚拟化切割。
Note: 最多支持切割为64个SE设备,但建议不要超过24个,超过后可能影响物理机性能。
加载云主机 将SE设备加载给云主机使用。
卸载云主机 将SE设备从云主机卸载。
删除SE设备 删除虚拟化切割出的SE设备。
操作 描述
虚拟化切割 对物理机上的SE设备进行虚拟化切割
Note:
  • 最多支持切割为64个SE设备,但建议不要超过24个,超过后可能影响物理机性能。
  • SE设备只能切割一次。如切割完成后需要调整切割数量,请先执行虚拟化还原,再重新切割。
虚拟化还原 将已切割出的SE设备全部还原
Note: 还原前,请确保所有SE设备已从云主机卸载。

其他设备

该页面展示当前物理机上的检测到的其他PCI设备,例如:Ali-NPU卡、IB卡(PCI模式)、FPGA卡等,可直接透传给云主机使用。点击对应的操作按钮,可对其他设备执行各种操作。例如:
操作 描述
启用其他设备 启用设备,启用后可加载到云主机使用。
停用其他设备 停用设备,停用后不可加载给云主机使用。
Note: 正在被云主机使用的设备可以正常使用,不受影响,直至被卸载。
加载云主机 将此PCI设备直接透传给云主机使用。
Note: PCI设备加载到云主机需要注意以下情况:
  • 用户需自行编辑PCI设备白名单,将其他设备添加至白名单。
  • 白名单编辑完成后,需重连该物理机生效。
  • 关于其他设备如何自定义白名单以及如何透传使用,详情请咨询官方技术支持。
卸载云主机 将此PCI设备从云主机卸载。
Note: 此操作可能导致业务中断,请谨慎操作。

附录

物理GPU透传适配型号
厂商 型号
NVIDIA Nvidia RTX 6000Ada、Nvidia RTX A6000
GeForce RTX 5090、Geforce RTX 4090、Nvidia RTX 3090
Quadro RTX 8000、Quadro RTX 6000
M4000、P2000
GTX 1650/1660、GTX 1060ti
H100、H200、H800、H20
Note:ZStack Cloud H84R ISO支持。
Nvidia L40、Nvidia L20、Nvidia L4
Nvidia A100、Nvidia A30
Nvidia A40、Nvidia A16、Nvidia A10、Nvidia T4
Tesla V100、Tesla P4/6/40/100、M6/10/60
K6000
AMD Radeon v620、Radeon RX5700
RRO W7800
Note: 暂不支持透传使用Windows操作系统的云主机
FirePro S7150、FirePro S7150X2
华为 Atlas 300i pro
Note: 仅支持透传ARM物理机上的本型号GPU
910B3/4
Note: 仅支持透传ARM物理机上的本型号GPU
Hygon Z100、Z100L
K100-AI
燧原 S60
天数智芯 智铠MR-V100
天垓
瀚博 SV100、SG100
Note: SG100不建议直接透传,建议切分vGPU后再加载使用。
昆仑芯 P800
阿里PPU PPU-ZW810E
其他 沐曦N100、摩尔线程、寒武纪等
GPU虚拟化切割适配型号
厂商 型号
NVIDIA Nvidia RTX 6000Ada、Nvidia RTX A6000
Quadro RTX 8000、Quadro RTX 6000
H100、H200、H800、H20
Note:ZStack CloudH84R ISO支持。
Nvidia L40、Nvidia L20、Nvidia L4
Nvidia A40、Nvidia A16、Nvidia A10、Nvidia T4
Tesla V100、Tesla P4/6/40/100、M6/10/60
AMD FirePro S7150、FirePro S7150X2
瀚博 SV100、SG100
GPU驱动版本推荐
GPU 物理机推荐驱动版本 云主机/弹性裸金属实例推荐驱动版本
NVIDIA
  • GPU驱动:NVIDIA-Linux-x86_64-510.47.03-grid.run
  • vGPU驱动:NVIDIA-Linux-x86_64-510.47.03-vgpu-kvm.run
使用NVIDIA官方推荐最新版本:详见NVIDIA官方文档
AMD rocm-smi 6.1.2及以上版本 rocm-smi 6.1.2及以上版本
Note: 如云主机使用RHEL7系列操作系统,需确保云主机内核为4.18.0或以上版本。
Hygon

rock-5.2.0-5.16.29-V01.13.run

/
华为

Ascend-hdk-310p-npu-driver_24.1.rc1_linux-aarch64.run

Ascend-hdk-310p-npu-driver_24.1.rc1_linux-aarch64.run

天数智芯
  • x86架构:corex-installer-linux64-4.0.1_x86_64_10.2.run
  • ARM架构:corex-installer-linux64-4.0.1_arm64_10.2.run
  • x86架构:corex-installer-linux64-4.0.1_x86_64_10.2.run
  • ARM架构:corex-installer-linux64-4.0.1_arm64_10.2.run

物理机硬件监控

ZStack Cloud主菜单,点击资源中心 > 硬件设施 > 计算设施 > 物理机,进入物理机界面。点击物理机名称,进入物理机详情页。

详情页支持查看物理机硬件信息和硬件健康状态。

硬件信息

物理机详情页左下角提供硬件信息卡片,展示物理服务器厂商、型号、SN序列号、服务器UUID、服务器持续运行时间、BMC地址、BMC版本、BIOS制造商、BIOS版本、出厂日期等信息。

图 1所示:
图 1. 硬件信息


硬件状态

物理机详情页右侧提供硬件状态卡片,展示物理机上各硬件设备数量及是否健康,包括以下硬件类目:
  • CPU:展示物理机上CPU总数和故障数 (如有),点击卡片可查看故障CPU编号。
  • 内存:展示物理机上内存条总数和故障数 (如有),点击卡片可查看故障内存条槽位。
  • 磁盘:展示物理机上磁盘总数和故障数 (如有),点击卡片可查看故障磁盘槽位。
  • RAID卡:展示物理机上RAID卡总数和故障数 (如有),点击卡片可查看故障RAID卡Target ID。
  • 电源槽位:展示物理机上电源槽位总数和故障数 (如有),点击卡片可查看故障电源槽位名称。
  • 风扇:展示物理机上风扇总数和故障数 (如有),点击卡片可查看故障风扇名称。
  • 温度传感器:展示物理机上温度传感器总数和故障数 (如有),点击卡片可查看故障温度传感器名称。
  • 物理GPU设备:展示物理机上物理GPU设备总数和故障数 (如有),点击卡片可查看故障物理GPU槽位。
  • vGPU设备:展示物理机上vGPU设备总数和故障数 (如有),点击卡片可查看故障vGPU名称。

物理机存在硬件故障时,物理机详情页上方将出现横幅提示,提醒用户关注。

图 2所示:
图 2. 硬件健康状态


物理机监控图表

ZStack Cloud支持以曲线图方式可视化展示物理机各资源的负载监控数据,不仅可以帮助快速了解物理机计算、存储、网络资源的库存,而且方便用户直观了解物理机的健康状况。
  • 物理机监控采用实时监控方式,监控图表默认10秒自动刷新一次数据。
  • 平台默认展示15分钟物理机相关资源(CPU、内存、磁盘IO、磁盘容量、网卡)的监控数据,也自定义时间跨度,查看指定时间内物理机的监控数据。包括:15分钟、1小时、6小时、1天、1周、1月、1年、自定义。

CPU监控

CPU监控不仅支持显示单个CPU(例如:0、1、2号CPU)的实时使用率,而且支持显示物理机所有CPU的实时平均使用率,同时勾选多个监控对象,还可查看监控曲线对比。包括以下监控条目:
  • 系统进程占用率:CPU运行在内核空间的时间比例,典型的内核操作有:分配内存、IO操作、创建子进程等
  • 用户进程占用率:CPU运行在用户态空间的时间比例,典型的用户态空间程序有:Shells、数据库、Web服务器等
  • 等待占用率:CPU发起读写操作后,等待磁盘驱动器将数据读入内存的时间比例
  • 空闲率:CPU处于空闲状态的时间比例
  • 使用率:CPU处于非空闲状态的时间比例
图 1所示:
图 1. CPU监控


内存监控

实时显示不同的时间跨度内物理机内存的监控曲线图。包括以下监控条目:
  • 使用量:实时显示物理机内存的已使用量。
  • 空闲量:实时显示物理机内存的未使用量。
图 2所示:
图 2. 内存监控


内存回收监控

实时显示不同的时间跨度内,因内存气球和KSM内存同页合并机制引起的物理机内存共享、回收的监控曲线图。
  • 内存气球回收内存:从云主机上回收的空闲内存量。云主机开启内存气球后,系统将实时监测云主机内存使用情况,并在云主机负载下降时,按需回收部分内存到物理机。
  • KSM共享物理内存:多台云主机共享的物理内存量。云主机开启KSM内存同页合并后,系统将检测该云主机是否和其他云主机使用内容相同的内存页,并将相同内存页合并,使多台云主机共享物理内存资源。
  • KSM节约物理内存:云主机开启KSM内存同页合并后,节约下的物理内存占用量。
图 2所示:
图 3. 内存回收监控


磁盘速度监控

可选择一个或多个磁盘分区(例如:vda分区),实时显示不同的时间跨度内磁盘读/写速度的监控曲线图。包括以下监控条目:
  • 读速度:实时显示物理机磁盘读速度
  • 写速度:实时显示物理机磁盘写速度
图 4所示:
图 4. 磁盘速度监控


磁盘IOPS监控

可选择一个或多个磁盘分区(例如:vda分区),实时显示不同的时间跨度内磁盘读/写IOPS的监控曲线图。包括以下监控条目:
  • 读IOPS:实时显示物理机磁盘读IOPS
  • 写IOPS:实时显示物理机磁盘写IOPS
图 4所示:
图 5. 磁盘IOPS监控


磁盘容量监控

实时显示不同的时间跨度内物理机磁盘容量的监控曲线图。包括以下监控条目:
  • 物理机全部磁盘使用率:物理机全部磁盘已使用容量百分比。
  • 物理机全部磁盘使用量:物理机全部磁盘已使用容量。
  • 云平台系统文件所占磁盘使用率:云平台系统文件所占磁盘容量百分比。
  • 云平台系统文件所占磁盘使用量:云平台系统文件所占磁盘容量。
图 6所示:
图 6. 磁盘容量监控


网卡数据传输速率监控

实时显示不同的时间跨度内物理机网卡数据传输速率的监控曲线图。包括以下监控条目:
  • 发送速率:展示当前物理机网卡数据发送速率。
  • 接收速率:展示当前物理机网卡数据接收速率。
支持两种维度查看物理机网卡监控:按网络类型查看、按指定网卡查看:
  • 按网络类型查看:查看物理机上用于各类型网络的网口监控数据,包括管理网络、存储网络、业务网络、备份网络、迁移网络,支持同时查看多个网络类型。为保证监控准确性,建议为物理机上的网口绑定网络类型标签。
  • 按指定网卡查看:查看物理机上各个网卡的监控数据,支持同时查看多个网卡。
图 7所示:
图 7. 网卡数据传输速率监控


网卡包速率监控

实时显示不同的时间跨度内物理机网卡包速率的监控曲线图。包括以下监控条目:
  • 发送速率:展示当前物理机网卡数据包发送速率。
  • 接收速率:展示当前物理机网卡数据包接收速率。
支持两种维度查看物理机网卡监控:按网络类型查看、按指定网卡查看:
  • 按网络类型查看:查看物理机上用于各类型网络的网口监控数据,包括管理网络、存储网络、业务网络、备份网络、迁移网络,支持同时查看多个网络类型。为保证监控准确性,建议为物理机上的网口绑定网络类型标签。
  • 按指定网卡查看:查看物理机上各个网卡的监控数据,支持同时查看多个网卡。
图 7所示:
图 8. 网卡包速率监控


网卡包丢弃速率监控

实时显示不同的时间跨度内物理机网卡包丢弃速率的监控曲线图。包括以下监控条目:
  • 出包:展示当前物理机网卡出包丢弃速率。
  • 入包:展示当前物理机网卡入包丢弃速率。
支持两种维度查看物理机网卡监控:按网络类型查看、按指定网卡查看:
  • 按网络类型查看:查看物理机上用于各类型网络的网口监控数据,包括管理网络、存储网络、业务网络、备份网络、迁移网络,支持同时查看多个网络类型。为保证监控准确性,建议为物理机上的网口绑定网络类型标签。
  • 按指定网卡查看:查看物理机上各个网卡的监控数据,支持同时查看多个网卡。
图 7所示:
图 9. 网卡包丢弃速率监控


物理机pNUMA拓扑

pNUMA拓扑:CPU厂商基于NUMA架构预定义的物理机NUMA节点拓扑。

相关定义

  • NUMA(Non-Uniform Memory Access):非一致性内存访问,是一种计算机内存设计架构。该架构下,CPU访问内存的时间取决于CPU与内存的相对位置。通过优先访问相对位置较近的内存可缩短延迟,从而可提升主机系统性能。
  • pNUMA节点(pNUMA Node):基于物理机NUMA架构预定义的NUMA节点,用于物理机CPU和内存管理。一台物理机可有一个或多个pNUMA节点,一个pNUMA节点主要由一个或多个物理CPU核(pCPU)和本地内存组成。
  • vNUMA节点(vNUMA Node):基于CPU绑定透传关联的物理机NUMA节点而生成的云主机NUMA节点,用于云主机CPU和内存管理。一个vNUMA节点主要由一个或多个虚拟CPU核(vCPU)和本地内存组成。
  • vNUMA拓扑(vNUMA Topology):基于CPU绑定生成的云主机NUMA节点(vNUMA Node)拓扑。
  • 本地内存:CPU(pCPU或vCPU)通过所在NUMA节点(pNUMA节点或vNUMA节点)非CPU核部件中内存控制器可直接访问的内存。相比非本地内存,CPU访问本地内存的延迟更低。

功能原理

ZStack Cloud添加物理机后,支持查看物理机pNUMA拓扑,同时基于该拓扑结构为物理机上运行的云主机配置vNUMA。

ZStack Cloud 云主机vNUMA配置基于CPU绑定实现,CPU绑定将云主机的vCPU与物理机的pCPU严格关联,为云主机分配特定的pCPU。vNUMA配置时,云主机所有vCPU均绑定pCPU,同时单个vCPU所绑定的pCPU均处在同一个pNUMA节点中。

vNUMA配置后,云主机直接透传关联的物理机pNUMA节点拓扑,生成一个或多个vNUMA节点,构成云主机的vNUMA拓扑。云主机vCPU基于vNUMA拓扑优先访问所在节点的本地内存。

图 1所示:
图 1. 云主机vNUMA配置原理


pNUMA拓扑

ZStack Cloud物理机pNUMA拓扑信息如下:
  • 展示物理机所有pNUMA节点及各节点关联的云主机信息。
  • 总内存为pCPU可直接访问的所在pNUMA节点本地内存总量。
  • 空闲内存为pCPU可直接访问的所在pNUMA节点本地空闲内存。
  • 总内存和空闲内存均取自pNUMA节点真实硬件物理内存容量。
图 2所示:
图 2. pNUMA拓扑


ZStack Cloud支持跳转查看关联云主机的vNUMA拓扑结构。vNUMA拓扑详情可参考vNUMA拓扑

物理机QEMU版本

版本要求

  • 同一集群内的物理机必须使用相同的QEMU版本,如新添加的物理机与集群内已有物理机QEMU版本不一致,可将集群内已有物理机QEMU版本升级到平台推荐版本后再添加物理机,或在新集群下添加该物理机。
  • 为避免平台功能或安全补丁缺失,建议集群下的物理机统一使用平台推荐的QEMU版本。

查看物理机QEMU版本

ZStack Cloud以集群为粒度对物理机QEMU版本进行监测和报警。当集群内存在物理机QEMU版本与平台推荐版本不一致时,集群详情页将出现提示信息,用户可点击提示信息中的去查看,了解物理机的QEMU状态信息,物理机QEMU版本与平台推荐版本不一致时,QEMU状态显示为待更新

图 1所示:

图 1. 查看物理机QEMU版本




物理机QEMU版本升级

ZStack Cloud支持以集群为粒度进行物理机QEMU版本升级。QEMU升级属于风险操作,升级前,请联系官方技术支持人员确认操作风险。

升级物理机QEMU版本主要包含以下步骤:
  1. 检查云平台服务及硬件资源连接情况
  2. 在全局设置中,设置云主机高可用模式为None
  3. 查看物理机当前QEMU版本
  4. 备份双管理节点数据库
  5. 上传最新版ISO镜像到双管理节点并更新本地repo源
  6. 使用CLI命令升级集群下物理机QEMU版本
  7. 使用CLI命令查询QEMU升级进度,确认升级是否成功
Note: 请咨询官方技术支持人员获取具体升级命令。

注意事项

  • 物理机QEMU版本升级后,需重启或迁移物理机上的云主机、VPC路由器和负载均衡实例使设置生效。
  • 云主机、VPC路由器或负载均衡实例QEMU版本与所属物理机不一致时,将显示为待更新状态。可通过重启或迁移云主机/VPC路由器/负载均衡实例更新其QEMU版本。
    图 2图 3图 4所示:
    图 2. 云主机QEMU版本状态

    图 3. VPC路由器QEMU版本状态


    图 4. 负载均衡实例QEMU版本状态