ZStack Logo

ZStack AIOS

概述

完整平台用户手册,包含基础云平台能力与 AIOS 相关章节。

GPU设备:拥有高计算能力的微处理器,可用于处理复杂的图形渲染和并行计算任务,帮助提高图形生产、视频处理和机器学习等业务的效率。

图1所示:


图1 GPU设备

功能特点

  • 物理GPU透传

    ZStack Cloud支持物理GPU透传功能,物理GPU可携带其上全部外设 (包括:GPU显卡、GPU声卡、GPU推理卡,以及其他GPU上的小设备) 以为单位整体透传给云主机使用,让云主机享有物理机强劲的GPU并行计算能力。

    ZStack Cloud支持以下型号的物理GPU透传:
    厂商 型号
    NVIDIA
    • Geforce (RTX,GTX) 系列:GTX1060ti、GTX1650、GTX1660 Super、RTX2080ti、RTX3080ti
    • Quadro (RTX, P) 系列:P2000、m4000、RTX A6000、RTX 6000、RTX8000
    • Tesla系列:T4、V100、M6/M10/M60、A10/A16/A30/A40/A100、P100/P40/P6/P4、H100/H800
    • 其他更多请参考NVIDIA官方文档
    AMD
    • Radeon系列:v620、RX5700
    • FirePro系列:FirePro S7150、FirePro S7150X2
    HYGON DCU Z100L
    华为 NPU Atlas 300i Pro
    说明: 仅物理机为ARM架构时,支持该型号GPU透传
    天数智芯 智铠100
  • GPU虚拟化切割

    ZStack Cloud支持vGPU功能,通过GPU虚拟化技术,将物理GPU切割成更细粒度的vGPU,形成vGPU资源池。用户可使用vGPU规格快速创建轻量的vGPU云主机,实现更灵活弹性的资源部署,提高资源利用率,节约成本。

    ZStack Cloud支持对以下型号的物理GPU进行虚拟化切割:
    厂商 型号
    NVIDIA
    • Tesla T4、Tesla M6/M10/M60、Tesla P100/P40/P6/P4、Tesla V100、RTX 6000/8000、A30/40/100
    • 其他更多请参考NVIDIA官方文档
    AMD FirePro S7150、FirePro S7150X2
    华为 NPU Atlas 300i Pro
    说明: 仅物理机为ARM架构时,支持该型号GPU虚拟化切割。
  • GPU驱动版本推荐

    推荐为GPU设备所在物理机和加载云主机安装以下版本驱动,以便正常使用GPU监控和vGPU功能:

    GPU 物理机推荐驱动版本 云主机推荐驱动版本
    NVIDIA
    • GPU驱动:NVIDIA-Linux-x86_64-510.47.03-grid.run
    • vGPU驱动:NVIDIA-Linux-x86_64-510.47.03-vgpu-kvm.run
    使用NVIDIA官方推荐最新版本:详见NVIDIA官方文档
    AMD rocm-smi 6.1.2及以上版本 rocm-smi 6.1.2及以上版本
    说明: 如云主机使用RHEL7系列操作系统,需确保云主机内核为4.18.0或以上版本。
    Hygon

    rock-5.2.0-5.16.29-V01.13.run

    /
    华为

    Ascend-hdk-310p-npu-driver_24.1.rc1_linux-aarch64.run

    Ascend-hdk-310p-npu-driver_24.1.rc1_linux-aarch64.run

    天数智芯
    • x86架构:corex-installer-linux64-4.0.1_x86_64_10.2.run
    • ARM架构:corex-installer-linux64-4.0.1_arm64_10.2.run
    • x86架构:corex-installer-linux64-4.0.1_x86_64_10.2.run
    • ARM架构:corex-installer-linux64-4.0.1_arm64_10.2.run

应用场景

  • 3D渲染

    三维计算机图形的预渲染 (Pre-rendering、Offline rendering) 常用于电影制作,要求很高的计算强度,需要大量的服务器提供运算能力;实时渲染 (Real-time rendering、Online rendering) 常用于三维视频游戏,通常依靠图形处理器 (GPU) 完成这个过程。由于GPU的高速发展,已经有相当多的3D渲染是在GPU服务器集群中完成。结合ZStack Cloud的GPU透传功能,可在性能损失极低的情况下 (5%以内) 使用云主机完成3D渲染工作,再配合智能监控软件以及ZStack Cloud自带的计费功能,可以形成一整套更便捷高效的渲染农场方案。

    图2所示:


    图2 3D渲染
  • 人工智能

    GPU的计算能力可以应用于深度学习。自Google推出神经网络工具TensorFlow后,许多科研机构以及企业应用都日渐明显偏向使用GPU作为基础设施。以规格较高的NVIDIA P100显卡为例,通过ZStack Cloud的GPU透传功能,将其透传至云主机后,性能测试结果显示,几乎与标称完全一致,能够充分满足大规模模型训练对基础设施的要求。

    图3所示:


    图3 人工智能
  • 云游戏

    随着宽带网络的发展,以及移动终端设备的普及,将游戏计算至于云端,客户端仅仅负责显示与控制的游戏模式也悄然开始流行。云端服务器上渲染3D游戏,即时为每一帧进行编码,将结果以流的形式传输至任何接驳有线或无线网络的设备。这种云游戏模式,可以借助GPU以及服务器CPU能力,通过ZStack Cloud的GPU透传功能,为游戏创造隔离性更佳的虚拟环境,从而保证计算与渲染的流畅度,为用户提供更好的游戏体验。

    用户也可以使用vGPU虚拟化功能,将物理GPU切割成多个满足需求的vGPU加载给云主机使用,在保证体验流畅性的同时,提高资源利用率。

    图4所示:


    图4 云游戏
  • VDI (桌面云)

    GPU一直是VDI (桌面云) 中非常重要的设备,它不仅能够改善桌面视觉体验,同时在特殊的应用程序中承担主力计算角色,从而完全代替传统PC图站,让用户在更为安全的环境中进行3D设计。通过ZStack Cloud的GPU透传或vGPU虚拟化功能,以及配合RDP、PCoIP等协议,可充分利用显卡能力,比如3D设计、游戏等流畅运行,提供更逼近本地物理机的用户体验。

    图5所示:


    图5 VDI (桌面云)