ZStack Logo

ZStack AIOS

部署AI模型平台

从环境准备到管理节点、AI 模型平台、容器管理的部署流程。

ZStack AIOS管理节点安装完成后,用户可在ZStack AIOS上部署AI模型平台。

部署前,请确保已上传AI模型平台-基础功能AI模型平台-GPU模块许可证。

部署AI模型平台主要包括以下步骤:
  1. 安装AI模型平台模块
  2. 上传预置模型文件包
  3. 上传预置推理模板包
  4. 设置AI推理镜像 (云主机) 为全局共享
  5. (可选) 为物理机安装dGPU依赖工具包
  6. (可选) 配置AI模型平台代理服务器
  1. 安装AI模型平台模块
    1. 上传Model Center镜像、Redis节点镜像、AI推理镜像 (云主机)
      • 登录ZStack AIOS管理节点 (双管理节点环境下,请登录VIP所在的管理节点) ,在/opt/zstack-marketplace-repo/zstack_io_maas/${Architecture}/5.5.22/路径下,新建images目录
        说明: 本路径中,${Architecture}表示镜像CPU架构
        • 镜像架构为x86时,使用以下路径:/opt/zstack-marketplace-repo/zstack_io_maas/x86_64/5.5.22/
        • 镜像架构为ARM时,使用以下路径:/opt/zstack-marketplace-repo/zstack_io_maas/aarch64/5.5.22/
      • 根据准备工作-软件工具,获取AI模型平台Model Center镜像,存放在images目录,镜像名称应为:
        • x86架构:zstack-ai-modelcenter-image-x86_64.qcow2
        • ARM架构:zstack-ai-modelcenter-image-aarch64.qcow2
      • 根据准备工作-软件工具,获取AI模型平台Redis节点镜像,存放在images目录,镜像名称应为:
        • x86架构:zstack-ai-zdfs-redis-x86_64.qcow2
        • ARM架构:zstack-ai-zdfs-redis-aarch64.qcow2
      • 根据准备工作-软件工具,按使用的GPU型号,获取对应的AI推理镜像 (云主机) ,存放在images目录,镜像名称应为:
        • x86架构:zstack-ai-inference-vm-ubuntu22.04-cuda125-python310-5.5.22.qcow2
          说明: 如使用x86-K100-AI版x86-PPU版推理镜像,需要手动将镜像名称重命名为zstack-ai-inference-vm-ubuntu22.04-cuda125-python310-5.5.22.qcow2
        • ARM架构:zstack-ai-inference-vm-openeuler2403sp1-CANN8.1.RC1-python311-5.5.22.qcow2
    2. 安装ZStack AI模型平台。
      登录ZStack AIOS UI界面,点击运营管理 > 应用市场 > 默认应用 > 全部,选择ZStack AI模型平台,点击安装应用,弹出安装应用界面。
      说明: 如未找到ZStack AI模型平台应用,在默认应用界面,点击右上角同步应用
      可参考以下示例输入相应内容:
      • 基础配置
        • 名称:设置应用名称
        • CPU架构:选择应用CPU架构
        • 版本:选择5.5.22
      • MaaS节点设置

        配置AI模型平台MaaS节点,即Model Center。该步骤将创建1台云主机作为AI模型平台MaaS节点。

        • CPU:设置MaaS节点CPU,生产环境建议设置为8核
        • 内存:设置MaaS节点内存,生产环境建议设置为16GB
        • 镜像服务器:选择镜像服务器
        • 管理网络:为MaaS节点加载管理网络
          说明:
          • 请确保已将规划的管理网络作为三层网络添加到ZStack AIOS
          • 请确保该网络能和ZStack AIOS管理节点通信。
        • 管理网络IP:可选项。为MaaS节点指定管理网络IP。如不指定,将由系统自动分配
        • 存储网络:为MaaS节点和平台上的服务实例指定存储网络。MaaS节点和服务实例将使用该网络访问NFS/S3存储
          说明: 请确保已将规划的存储网络作为三层网络添加到ZStack AIOS
        • 存储网络IP:可选项。为MaaS节点指定存储网络IP。如不指定,将由系统自动分配
        • 集群:可选项。指定MaaS节点所在的集群。如不指定,将由系统自动分配
        • 物理机:可选项。指定MaaS节点所在的集群。如不指定,将由系统自动分配
        • 根云盘:设置MaaS节点根云盘规格。生产环境建议设置为2TB
        • 主存储:可选项。为MaaS节点指定主存储。如不指定,将由系统自动分配
        • Ceph存储池:如主存储为Ceph类型,需选择Ceph存储池
        • Model Center端口:设置Model Center端口,默认为5000
      • Redis节点设置:配置AI模型平台Redis节点。该步骤将创建3台云主机作为AI模型平台Redis节点 (哨兵模式) 。
        • CPU:设置Redis节点CPU,POC和生产环境建议设置为8核
        • 内存:设置Redis节点内存,POC环境建议设置为16GB,生产环境建议设置为32GB
        • 集群:可选项。为Redis节点指定集群
        • 存储网络IP:可选项。为Redis节点指定存储网络IP
          说明:
          • 如不指定,系统将自动分配存储网络IP。
          • 如指定,需输入一个IP地址,系统将以该IP为始,为三台Redis节点依次分配IP地址。
        • 物理机:可选项。为Redis节点指定物理机
        • 根云盘:设置Redis节点根云盘规格,POC环境建议设置为100GB,生产环境建议设置为200GB
        • 主存储:可选项。为Redis节点指定主存储
        • Ceph存储池:如主存储为Ceph类型,需选择Ceph存储池
        • Redis端口:设置Redis端口,默认为6379
        • Redis哨兵端口:设置Redis哨兵端口,默认为5666
        • Redis密码:使用默认密码,不要修改
      • 后端存储设置:设置AI模型平台ZDFS存储,请提前准备NFS或S3存储系统
        说明:
        • 如使用物理/虚拟服务器搭建NFS服务,请配置共享目录权限为 (rw,sync,no_root_squash)
        • 建议后端存储系统使用SSD以获得更高性能。
        • 请注意备份数据存储,确保数据丢失或发生错误时可及时恢复。
        • 后端存储类型:选择后端存储类型,支持NFS或S3存储
        • 后端存储端点:填写存储服务地址,例如:172.25.16.104:/nfs_root/http:192.168.0.1:9000/storage-bucket
          说明: NFS存储服务地址必须以/结尾。
        • S3后端存储访问密钥:存储类型为S3时需填写该参数
        • S3后端存储密钥:存储类型为S3时需填写该参数
      图1所示:




      图1 安装ZStack AI模型平台
      点击确定,等待应用安装完成。
    3. 查看AI模型平台服务状态
      ZStack AIOS主菜单,点击AI模型平台 > 统计和管理 > 模型平台配置,进入模型平台配置界面,确认各服务状态均显示为正常,且服务配置与安装ZStack AI模型平台时定义的相符。
      图2所示:


      图2 查看AI模型平台服务状态
    4. 设置云主机默认服务网络
      模型平台配置界面,点击左上角修改配置,手动设置云主机资源配置-默认服务网络
      说明: 请确保已将规划的业务网络作为三层网络添加到ZStack AIOS,并开启DHCP和Userdata服务。
      图3所示:


      图3 设置云主机默认服务网络
  2. 上传预置模型文件包
    1. 根据准备工作-软件工具,准备预置模型文件包 (完整)
    2. 登录Model Center,将预置模型文件包上传到 /root/bentoml/目录,并执行tar -xzvf Models_5.5.6.tar.gz解压
      说明:
      • 查看Model Center IP地址,可在应用市场界面,点击默认应用 > 已安装,找到已部署的ZStack AI模型平台卡片。点击卡片右上角... > 查看云主机,找到名称为Marketplace-AIOS-ModelCenter的云主机,该云主机即为Model Center。
      • 登录Model Center,默认账号为root;默认密码为AIOS@admin123
      图4所示:


      图4 查看Model Center
    3. 查看预置模型文件
      预置模型文件包解压后,可看到以下子目录:
      • datasets:存放数据集文件
      • model_evaluations:存放服务评测结果
      • models:存放模型文件
      • Others:存放用户自定义上传的非bentoml架构的推理模板代码
      • fine_tune_save:存放精调后导出的模型
      • tmp:临时目录
  3. 上传预置推理模板包
    1. 根据准备工作-软件工具,准备预置推理模板包
    2. 登录Model Center,将预置推理模板包上传到 /root/bentoml/目录,并执行tar -xzvf ModelServices_5.5.22_${Architecture}.tar.gz解压
    3. 查看预置推理模板
      预置推理模板解压后,可看到以下子目录:
      • custom_model_services: 存放系统默认的推理模板代码
  4. 设置AI推理镜像 (云主机) 为全局共享
    登录ZStack AIOS UI界面,点击资源中心 > 云资源池 > 计算配置 > 镜像,找到AI推理镜像,点击操作 > 设置共享模式,将该镜像设置为全局共享。
    说明:
    • x86 AI推理镜像默认名称为:zstack-ai-inference-vm-ubuntu22.04-cuda125-python310-5.5.22
    • ARM AI推理镜像默认名称为:zstack-ai-inference-vm-openeuler2403sp1-CANN8.1.RC1-python311-5.5.22
  5. (可选) 为物理机安装dGPU依赖工具包
    说明: 如不使用dGPU模式,可跳过本步骤。
    根据准备工作-软件工具,获取dGPU依赖工具包,将其上传到需开启dGPU模式的物理机,并登录该物理机执行以下命令:
    [root@localhost~]# bash zstack-dgpu-toolkit.bin
    该工具包用于为物理机安装dGPU模式所需依赖。安装完成后,可在该物理机上启用dGPU模式。
  6. (可选) 配置AI模型平台代理服务器
    说明: 配置代理服务器后,AI模型平台可访问Hugging Face等网站。请根据实际情况按需配置。
    ZStack AIOS UI界面,点击AI模型平台 > 统计和管理 > 模型平台配置,进入模型平台配置界面。在模型平台配置界面,点击修改配置,弹出编辑模型平台服务器界面。
    修改管理服务部分以下参数
    • 代理服务:勾选使用代理服务
    • 代理服务器地址:填写代理服务器IP地址
    • 代理服务端口:填写代理服务端口
    • 代理服务器登录名:可选项。填写代理服务器登录名
    • 代理服务器密码:可选项。填写代理服务器密码
    • 代理忽略地址:可选项。添加代理忽略地址
    图5所示:


    图5 配置代理服务器
至此,AI模型平台已部署完成。用户可在AI模型平台基于云主机部署推理服务、应用开发服务,或使用其他功能。也可以继续部署容器管理,为AI模型平台提供容器引擎。