ZStack Logo

ZStack AIOS

保留原Model Center方式

管理节点、AI 模型平台和容器管理的升级准备与执行步骤。

通过新建Model Center的方式升级AI模型平台。
说明: 本方法仅适用于从5.3.20及之后版本升级到5.5.22的场景。
通过保留原Model Center的方式升级AI模型平台包括以下步骤:
  1. 更新Model Center agent和ZDFS代码
  2. 为Model Center安装服务监控
  3. 更新AI模型平台预置文件包
  4. 更新AI云主机默认镜像
  5. 更新AI容器默认镜像 (可选)
  1. 更新Model Center agent和ZDFS代码
    1. 上传AI模型平台MaaS节点镜像。
      根据准备工作,获取5.5.22版AI模型平台MaaS节点镜像。
      登录ZStack AIOS UI界面,点击资源中心 > 云资源池 > 计算配置 > 镜像,进入镜像界面。点击添加镜像,将AI模型平台MaaS节点镜像添加到本界面。
    2. 使用MaaS节点镜像创建云主机VM-1。
      ZStack AIOS主菜单,点击资源中心 > 云资源池 > 虚拟资源 > 云主机,进入云主机界面。点击创建云主机,使用MaaS节点镜像创建一台云主机VM-1。
    3. 更新agent代码
      登录原Model Center,执行以下命令:
      拷贝VM-1的/home/zstack/ai-model-center-agent目录,覆盖原Model Center下的对应目录
      [root@localhost ~]# sshpass -p 'password' rsync -avz --progress -e "ssh -p 22 -o StrictHostKeyChecking=no" \
      root@${VM-1Ip}:/home/zstack/ai-model-center-agent /home/zstack/    //${VM-1Ip}需替换为VM-1的IP地址
      
      重启agent服务使更新生效
      [root@localhost ~]# systemctl restart model-center-agent.service
      
    4. 更新ZDFS存储服务代码
      登录原Model Center,执行以下命令:
      移除原Model Center下的zdfs.yaml zdfs.yaml文件
      [root@localhost ~]# mv /usr/local/zstack/zstack-dfs/bin/zdfs.yaml zdfs.yaml
      
      停止ZDFS服务
      [root@localhost ~]# systemctl stop zstack-dfs.service
      
      拷贝VM-1下的ZDFS安装包到原Model Center /root/目录
      [root@localhost ~]# sshpass -p 'password' rsync -avz --progress -e "ssh -p 22 -o StrictHostKeyChecking=no" \
      root@${VM-1Ip}:/home/zstack/zstack-dfs.bin /root/    //{VM-1Ip}需替换为VM-1的IP地址
      
      执行ZDFS安装包
      [root@localhost ~]# bash /root/zstack-dfs.bin
      
      修改新zdfs.yaml zdfs.yaml文件,配置ZDFS存储服务,可直接使用原zdfs.yaml zdfs.yaml文件中的配置
      [root@localhost ~]# vi /usr/local/zstack/zstack-dfs/bin/zdfs.yaml
      
      如使用NFS存储作为后端存储,参考以下示例进行修改:
      ================================================
      version: 1.0
      storage:
        directory: /root/
        driver:
          mountPoint: bentoml
          type: juicefs
          metadata:
            driver: redis
            storageIp:  ${RedisNode1Ip}:5666, ${RedisNode2Ip}:5666, ${RedisNode3Ip}:5666    //${RedisNodeIp}分别填写三个Redis节点的IP地址
            masterName: mymaster
          backupMeta: 24h
        backend:
          type: nfs
          endpoint: ${NfsPath}    //填写NFS存储路径
      http:
        addr: :8866
      metrics:
        addr: 0.0.0.0:9567
      ====================================================
      
      如使用NFS存储作为后端存储,参考以下示例进行修改:
      ====================================================
      http:
        addr: :8866
      metrics:
        addr: 0.0.0.0:9567
      storage:
        backend:
          accessKey: ${S3AccessKey}    //填写S3存储AccessKey
          endpoint: ${S3Path}    //填写S3存储路径
          secretKey: ${S3SecretKey}    //填写S3存储SecretKey
          type: s3
        directory: /root/
        driver:
          backupMeta: 24h
          metadata:
            driver: redis
            masterName: mymaster
            storageIp: ${RedisNode1Ip}:5666, ${RedisNode2Ip}:5666, ${RedisNode3Ip}:5666    //${RedisNodeIp}分别填写三个Redis节点的IP地址
          mountPoint: bentoml
          type: juicefs
      version: 1.0
      ====================================================
      
      启动ZDFS服务
      [root@localhost ~]# systemctl start zstack-dfs.service
      
  2. 为Model Center安装服务监控
    登录原Model Center ,执行以下命令,安装服务监控:
    [root@localhost ~]# cd /home/zstack/ai-model-center-agent/; python3 deployment/services/install.py --uuid 2cc1f4d6b8014b44912f92bb242e9675 --skip-agent-install
  3. 更新AI模型平台预置文件
    1. 根据准备工作,获取5.5.22版AI模型平台预置文件包。
    2. 更新AI模型平台预置文件。
      登录原Model Center,执行以下命令:
      [root@localhost ~]# cd /root/bentoml    //进入/root/bentoml路径
      [root@localhost ~]# mkdir 5.5.22    //创建5.5.22子目录
      
      将5.5.22版AI模型平台预置文件包存放到/root/bentoml/5.3.28/路径
      
      [root@localhost ~]# tar -xzvf ModelCenter.tar.gz    //解压AI模型平台预置文件夹
      
      将/root/bentoml中的旧版本自定义文件移动到/root/bentoml/5.3.28/的对应子目录
      ====================================================
      移动自定义模型
      [root@localhost ~]# cd /root/bentoml/models/; mv bge-large-zh-v1.5 /root/bentoml/tmp/;mv bge-reranker-large /root/bentoml/tmp/; \
      mv blip-vqa-capfilt-large /root/bentoml/tmp/;mv deepseek-r1-distill-qwen-7b /root/bentoml/tmp/; \
      mv Qwen2-0.5B-Instruct /root/bentoml/tmp/;mv Qwen2-7B-Instruct-GPTQ-Int8 /root/bentoml/tmp/; \
      mv stabilityai--sdxl-turbo /root/bentoml/tmp/; mv XTTS-v2 /root/bentoml/tmp/; \
      mv Yi-1.5-9B-Chat /root/bentoml/tmp/;mv YOLOv8 /root/bentoml/tmp/;mv * /root/bentoml/5.3.28/modes/
      
      移动自定义数据集
      [root@localhost ~]# cd /root/bentoml/datasets/; mv model_evalution /root/bentoml/tmp/; mv * /root/bentoml/5.3.28/datasets/
      
      移动自定义推理模板
      [root@localhost ~]# cd /root/bentoml/Others; mv * /root/bentoml/5.3.28/Others/
      ====================================================
      
      确认无误后继续以下命令,将/root/bentoml下的旧版本系统文件删除,并将/root/bentoml/5.3.28下的文件提取到/root/bentoml
      [root@localhost ~]#  cd /root/bentoml; rm -rf datasets envs install models tmp bentos 
      custom_model_services fine_tune_save model_evaluations Others
      [root@localhost ~]# cd /root/bentoml/5.3.28/;mv * ..
  4. 更新AI云主机默认镜像
    登录ZStack AIOS管理节点,执行以下命令,将预置推理模板的云主机镜像更新为5.5.22版AI云主机默认镜像,即MaaS节点镜像:
    登录ZStack AIOS数据库
    [root@localhost ~]# mysql -uroot -pzstack.mysql.password zstack
    
    将系统预置推理模板的云主机镜像全部替换为新AI云主机默认镜像 (MaaS节点镜像)
    [root@localhost ~]# update ModelServiceVO set vmImageUuid="${AiosDefaultVmImageUuid}"    //${AiosDefaultVmImageUuid}为新AI云主机默认镜像(MaaS节点镜像)UUID
  5. 更新AI容器默认镜像
    说明:ZStack AIOS未部署容器管理,可跳过本步骤。
    1. 根据准备工作,获取5.5.22版AI容器默认镜像。
    2. 登录ZStack AIOS UI界面,点击容器管理 > 制品仓库 > 本地仓库。在本地仓库界面,找到ai-model-registry仓库,点击进入其详情页。在仓库详情页,点击镜像,将旧版本AI容器默认镜像删除,并上传5.5.22版AI容器默认镜像。
至此,AI模型平台服务更新已完成。如当前环境部署容器管理,需继续升级容器管理模块。