ZStack Logo

ZStack AIOS

AI模型平台升级

管理节点、AI 模型平台和容器管理的升级准备与执行步骤。

ZStack AIOS管理节点升级完成后,需单独升级其上的AI模型平台,以使用最新的模型平台功能。
说明: 若当前 AI 模型平台版本为 5.5.6及之后版本,仅需执行升级AI模型平台版本更新预置推理模板更新AI推理镜像 (云主机)更新AI推理镜像 (容器)步骤;如需启用dGPU模式,还需执行为物理机安装dGPU依赖工具包步骤。
  1. 升级AI模型平台版本
  2. 更新预置推理模板
  3. 更新预置模型文件
  4. 更新模型元数据
  5. 更新AI推理镜像 (云主机)
  6. (可选) 为物理机安装dGPU依赖工具包
  7. 更新AI推理镜像 (容器)
  8. 更新Redis节点配置
  1. 升级AI模型平台版本
    1. 根据准备工作,获取AI模型平台升级包
    2. 上传AI模型平台升级包到Model Center,并执行以下命令,进行AI模型平台升级:
      [root@localhost~]# bash aios-installer-5.5.22-${Architecture}.bin
  2. 更新预置推理模板
    1. 根据准备工作,获取最新版预置推理模板包
    2. 登录新Model Center,执行以下命令:
      进入/root/bentoml/
      [root@localhost~]# cd /root/bentoml/
      
      将最新版预置推理模板包上传到/root/bentoml/下
      
      解压预置推理模板包
      [root@localhost~]# tar -xzvf ModelServices_5.5.22_${Architecture}.tar.gz
  3. 更新预置模型文件
    1. 根据准备工作,获取最新版预置模型文件包
      • 从5.4.2或之后版本升级,请准备预置模型文件包 (Qwen3-ASR-0.6B)
      • 从5.4.2之前版本升级,请准备预置模型文件包 (完整)
    2. 登录新Model Center,执行以下命令:
      进入/root/bentoml/
      [root@localhost~]# cd /root/bentoml/
      
      将最新版预置模型文件包上传到/root/bentoml/下
      
      解压预置模型文件包
      ================================================
      从5.4.2之前版本升级,执行:
      [root@localhost~]# tar -xzvf Models_5.5.6.tar.gz
      =================================================
      从5.4.2及之后版本升级,执行:
      [root@localhost~]# tar -xzvf Model_Qwen3-ASR-0.6B_tar.gz
  4. 更新模型元数据
    登录ZStack AIOS管理节点,执行以下命令:
    登录CLI命令行
    [root@localhost ~]# zstack-cli    //进入CLI命令行
    - >>>  LogInByAccount accountName=admin password=${Password}    //使用Admin账号密码登录
    
    更新模型元数据
    admin >>> GenerateModelMetadata modelCenterUuid=2cc1f4d6b8014b44912f92bb242e9675
  5. 更新AI推理镜像 (云主机)
    1. 上传最新版AI推理镜像 (云主机)
      根据准备工作,按使用的GPU型号,获取对应的最新版AI推理镜像 (云主机) 。在ZStack AIOS主菜单,点击资源中心 > 云资源池 > 镜像。在镜像界面,点击添加镜像,将AI推理镜像 (云主机) 上传到此处。
    2. 设置AI推理镜像 (云主机) 为全局共享
      镜像界面,找到已上传的AI推理镜像 (云主机) ,点击操作 > 设置共享模式,将该镜像设置为全局共享。
    3. 更新系统推理模板默认云主机镜像
      登录ZStack AIOS管理节点,执行以下命令:
      [root@localhost~]# zstack-ctl aios_setup_system_services --architecture ${Architecture} --vm-image-uuid ${AIVMIMAGEUUID}    
      //${AIVMIMAGEUUID}为AI推理镜像 (云主机) UUID,可进入镜像详情页查看; ${Architecture}为镜像架构,x86架构请填写为x86_64,ARM架构请填写为aarch64
  6. (可选) 为物理机安装dGPU依赖工具包
    说明: 如不使用dGPU模式,可跳过本步骤。
    根据准备工作,获取dGPU依赖工具包,将其上传到需开启dGPU模式的物理机,并登录该物理机执行以下命令:
    [root@localhost~]# bash zstack-dgpu-toolkit.bin
    该工具包用于为物理机安装dGPU模式所需依赖。安装完成后,可在该物理机上启用dGPU模式。
  7. 更新AI推理镜像 (容器)
    说明:ZStack AIOS未部署容器管理,可跳过本步骤。
    1. 根据准备工作,按使用的GPU型号,获取最新版AI推理镜像 (容器) 。
    2. 登录ZStack AIOS UI界面,点击容器管理 > 制品仓库 > 本地仓库。在本地仓库界面,找到ai-model-registry仓库,点击进入其详情页。在仓库详情页,点击镜像,将旧版本AI推理镜像 (容器) 删除,并上传5.5.22版AI推理镜像 (容器)。
      支持在线上传、文件上传、命令上传三种上传方式
      • 如使用在线上传,请选择镜像架构,支持多选
      • 如使用命令上传,请在命令中标注镜像架构,例如:
        • nerdctl push --platform=linux/arm64
        • nerdctl push --platform=linux/amd64
        • nerdctl push --platform=linux/arm64 --platform=linux/amd64
      说明: 如使用昇腾910B GPU,请同时准备并上传image-910b.tarimage-vllm-ascend.tarimage-npu-llamafactory.tar镜像。
    3. 指定模型精调服务默认容器镜像
      • 使用NVIDIA GPU进行模型精调,可跳过本步骤。
      • 使用Hygon K100-AI进行模型精调,请登录ZStack AIOS管理节点,执行以下命令:
        [root@localhost~]# zstack-ctl aios_setup_system_services --type FineTune --architecture x86_64 --docker-image-name aiworker-dcu:vllm0.9.2
      • 使用昇腾910B进行模型精调,请登录ZStack AIOS管理节点,执行以下命令:
        [root@localhost~]# zstack-ctl aios_setup_system_services --type FineTune --architecture aarch64 --docker-image-name aiworker-npu-llamafactory:latest
  8. 更新Redis节点配置
    说明: 从5.3.52及之后版本升级至5.5.22,可跳过本步骤。
    1. 查看Redis节点信息
      登录ZStack AIOS UI界面,点击运营管理 > 应用市场 > 默认应用 > 已部署。在默认应用-已部署界面,找到已部署的ZStack AI模型平台,点击... > 查看云主机,即可查看Redis节点信息,包括名称、IP地址等。
      图1所示:


      图1 查看Redis节点IP信息
    2. 确认Redis云主机根云盘是否达到40 GB。如未达到,请扩容到40 GB或以上。
    3. 分别登录三台Redis节点,执行以下命令:
      [root@localhost~]# lsblk    //查看磁盘名
      
      如磁盘名为vda,执行以下命令
      [root@localhost~]# sudo bash -c "echo -e 'n\np\n\n\n\nt\n\n8e\nw' | fdisk /dev/vda";
      [root@localhost~]# sudo pvcreate /dev/vda4 && sudo vgextend ubuntu-vg /dev/vda4 && sudo lvextend -r -l +100%FREE /dev/ubuntu-vg/ubuntu-lv
      
      如磁盘名为sda,执行以下命令
      [root@localhost~]# sudo bash -c "echo -e 'n\np\n\n\n\nt\n\n8e\nw' | fdisk /dev/sda";
      [root@localhost~]# sudo pvcreate /dev/sda4 && sudo vgextend ubuntu-vg /dev/sda4 && sudo lvextend -r -l +100%FREE /dev/ubuntu-vg/ubuntu-lv
      
      执行配置修改命令
      [root@localhost~]# sudo systemctl stop unattended-upgrades; sudo systemctl disable unattended-upgrades;
      [root@localhost~]# redis-cli -p 6379 -a zstack.redis.password -h 127.0.0.1 CONFIG SET appendonly yes;
      [root@localhost~]# redis-cli -p 6379 -a zstack.redis.password -h 127.0.0.1 CONFIG SET save "900 1 300 10 60 10000";
      [root@localhost~]# redis-cli -p 6379 -a zstack.redis.password -h 127.0.0.1 CONFIG REWRITE;
至此,AI模型平台服务更新已完成。如当前环境部署容器管理,需继续升级容器管理模块。