ZStack AIOS

概述

完整平台用户手册，包含基础云平台能力与 AIOS 相关章节。

GPU设备：拥有高计算能力的微处理器，可用于处理复杂的图形渲染和并行计算任务，帮助提高图形生产、视频处理和机器学习等业务的效率。

如图1所示：

功能特点

物理GPU透传

ZStack Cloud支持物理GPU透传功能，物理GPU可携带其上全部外设 (包括：GPU显卡、GPU声卡、GPU推理卡，以及其他GPU上的小设备) 以组为单位整体透传给云主机使用，让云主机享有物理机强劲的GPU并行计算能力。

ZStack Cloud支持以下型号的物理GPU透传：


厂商	型号
NVIDIA	Geforce (RTX,GTX) 系列：GTX1060ti、GTX1650、GTX1660 Super、RTX2080ti、RTX3080ti Quadro (RTX, P) 系列：P2000、m4000、RTX A6000、RTX 6000、RTX8000 Tesla系列：T4、V100、M6/M10/M60、A10/A16/A30/A40/A100、P100/P40/P6/P4、H100/H800 其他更多请参考NVIDIA官方文档
AMD	Radeon系列：v620、RX5700 FirePro系列：FirePro S7150、FirePro S7150X2
HYGON	DCU Z100L
华为	NPU Atlas 300i Pro 说明：仅物理机为ARM架构时，支持该型号GPU透传
天数智芯	智铠100

GPU虚拟化切割

ZStack Cloud支持vGPU功能，通过GPU虚拟化技术，将物理GPU切割成更细粒度的vGPU，形成vGPU资源池。用户可使用vGPU规格快速创建轻量的vGPU云主机，实现更灵活弹性的资源部署，提高资源利用率，节约成本。

ZStack Cloud支持对以下型号的物理GPU进行虚拟化切割：


厂商	型号
NVIDIA	Tesla T4、Tesla M6/M10/M60、Tesla P100/P40/P6/P4、Tesla V100、RTX 6000/8000、A30/40/100 其他更多请参考NVIDIA官方文档
AMD	FirePro S7150、FirePro S7150X2
华为	NPU Atlas 300i Pro 说明：仅物理机为ARM架构时，支持该型号GPU虚拟化切割。

GPU驱动版本推荐

推荐为GPU设备所在物理机和加载云主机安装以下版本驱动，以便正常使用GPU监控和vGPU功能：


GPU	物理机推荐驱动版本	云主机推荐驱动版本
NVIDIA	GPU驱动：NVIDIA-Linux-x86_64-510.47.03-grid.run vGPU驱动：NVIDIA-Linux-x86_64-510.47.03-vgpu-kvm.run	使用NVIDIA官方推荐最新版本：详见NVIDIA官方文档
AMD	rocm-smi 6.1.2及以上版本	rocm-smi 6.1.2及以上版本说明：如云主机使用RHEL7系列操作系统，需确保云主机内核为4.18.0或以上版本。
Hygon	rock-5.2.0-5.16.29-V01.13.run	/
华为	Ascend-hdk-310p-npu-driver_24.1.rc1_linux-aarch64.run	Ascend-hdk-310p-npu-driver_24.1.rc1_linux-aarch64.run
天数智芯	x86架构：corex-installer-linux64-4.0.1_x86_64_10.2.run ARM架构：corex-installer-linux64-4.0.1_arm64_10.2.run	x86架构：corex-installer-linux64-4.0.1_x86_64_10.2.run ARM架构：corex-installer-linux64-4.0.1_arm64_10.2.run

应用场景

3D渲染
三维计算机图形的预渲染 (Pre-rendering、Offline rendering) 常用于电影制作，要求很高的计算强度，需要大量的服务器提供运算能力；实时渲染 (Real-time rendering、Online rendering) 常用于三维视频游戏，通常依靠图形处理器 (GPU) 完成这个过程。由于GPU的高速发展，已经有相当多的3D渲染是在GPU服务器集群中完成。结合ZStack Cloud的GPU透传功能，可在性能损失极低的情况下 (5%以内) 使用云主机完成3D渲染工作，再配合智能监控软件以及ZStack Cloud自带的计费功能，可以形成一整套更便捷高效的渲染农场方案。
如图2所示：

图2 3D渲染
人工智能
GPU的计算能力可以应用于深度学习。自Google推出神经网络工具TensorFlow后，许多科研机构以及企业应用都日渐明显偏向使用GPU作为基础设施。以规格较高的NVIDIA P100显卡为例，通过ZStack Cloud的GPU透传功能，将其透传至云主机后，性能测试结果显示，几乎与标称完全一致，能够充分满足大规模模型训练对基础设施的要求。
如图3所示：

图3 人工智能
云游戏
随着宽带网络的发展，以及移动终端设备的普及，将游戏计算至于云端，客户端仅仅负责显示与控制的游戏模式也悄然开始流行。云端服务器上渲染3D游戏，即时为每一帧进行编码，将结果以流的形式传输至任何接驳有线或无线网络的设备。这种云游戏模式，可以借助GPU以及服务器CPU能力，通过ZStack Cloud的GPU透传功能，为游戏创造隔离性更佳的虚拟环境，从而保证计算与渲染的流畅度，为用户提供更好的游戏体验。
用户也可以使用vGPU虚拟化功能，将物理GPU切割成多个满足需求的vGPU加载给云主机使用，在保证体验流畅性的同时，提高资源利用率。
如图4所示：

图4 云游戏
VDI (桌面云)
GPU一直是VDI (桌面云) 中非常重要的设备，它不仅能够改善桌面视觉体验，同时在特殊的应用程序中承担主力计算角色，从而完全代替传统PC图站，让用户在更为安全的环境中进行3D设计。通过ZStack Cloud的GPU透传或vGPU虚拟化功能，以及配合RDP、PCoIP等协议，可充分利用显卡能力，比如3D设计、游戏等流畅运行，提供更逼近本地物理机的用户体验。
如图5所示：

图5 VDI (桌面云)