ZStack 资源中心

ZStack AIOS管理节点安装完成后，用户可在ZStack AIOS上部署AI模型平台。

部署前，请确保已上传AI模型平台-基础功能和AI模型平台-GPU模块许可证。

部署AI模型平台主要包括以下步骤：

安装AI模型平台模块
上传预置模型文件包
上传预置推理模板包
设置AI推理镜像 (云主机) 为全局共享
(可选) 为物理机安装dGPU依赖工具包
(可选) 配置AI模型平台代理服务器

安装AI模型平台模块
1. 上传Model Center镜像、Redis节点镜像、AI推理镜像 (云主机)
  - 登录ZStack AIOS管理节点 (双管理节点环境下，请登录VIP所在的管理节点) ，在/opt/zstack-marketplace-repo/zstack_io_maas/${Architecture}/5.5.22/路径下，新建images目录
    说明：本路径中，${Architecture}表示镜像CPU架构
    
    镜像架构为x86时，使用以下路径：/opt/zstack-marketplace-repo/zstack_io_maas/x86_64/5.5.22/
    
    镜像架构为ARM时，使用以下路径：/opt/zstack-marketplace-repo/zstack_io_maas/aarch64/5.5.22/
  - 根据准备工作-软件工具，获取AI模型平台Model Center镜像，存放在images目录，镜像名称应为：
    - x86架构：zstack-ai-modelcenter-image-x86_64.qcow2
    - ARM架构：zstack-ai-modelcenter-image-aarch64.qcow2
  - 根据准备工作-软件工具，获取AI模型平台Redis节点镜像，存放在images目录，镜像名称应为：
    - x86架构：zstack-ai-zdfs-redis-x86_64.qcow2
    - ARM架构：zstack-ai-zdfs-redis-aarch64.qcow2
  - 根据准备工作-软件工具，按使用的GPU型号，获取对应的AI推理镜像 (云主机) ，存放在images目录，镜像名称应为：
    - x86架构：zstack-ai-inference-vm-ubuntu22.04-cuda125-python310-5.5.22.qcow2
      说明：如使用x86-K100-AI版或x86-PPU版推理镜像，需要手动将镜像名称重命名为zstack-ai-inference-vm-ubuntu22.04-cuda125-python310-5.5.22.qcow2
    - ARM架构：zstack-ai-inference-vm-openeuler2403sp1-CANN8.1.RC1-python311-5.5.22.qcow2
2. 安装ZStack AI模型平台。
  登录ZStack AIOS UI界面，点击运营管理 > 应用市场 > 默认应用 > 全部，选择ZStack AI模型平台，点击安装应用，弹出安装应用界面。
  说明：如未找到ZStack AI模型平台应用，在默认应用界面，点击右上角同步应用。
  可参考以下示例输入相应内容：
  - 基础配置
    - 名称：设置应用名称
    - CPU架构：选择应用CPU架构
    - 版本：选择5.5.22
  - MaaS节点设置
    配置AI模型平台MaaS节点，即Model Center。该步骤将创建1台云主机作为AI模型平台MaaS节点。
    - CPU：设置MaaS节点CPU，生产环境建议设置为8核
    - 内存：设置MaaS节点内存，生产环境建议设置为16GB
    - 镜像服务器：选择镜像服务器
    - 管理网络：为MaaS节点加载管理网络
      说明：
      
      请确保已将规划的管理网络作为三层网络添加到ZStack AIOS。
      
      请确保该网络能和ZStack AIOS管理节点通信。
    - 管理网络IP：可选项。为MaaS节点指定管理网络IP。如不指定，将由系统自动分配
    - 存储网络：为MaaS节点和平台上的服务实例指定存储网络。MaaS节点和服务实例将使用该网络访问NFS/S3存储
      说明：请确保已将规划的存储网络作为三层网络添加到ZStack AIOS。
    - 存储网络IP：可选项。为MaaS节点指定存储网络IP。如不指定，将由系统自动分配
    - 集群：可选项。指定MaaS节点所在的集群。如不指定，将由系统自动分配
    - 物理机：可选项。指定MaaS节点所在的集群。如不指定，将由系统自动分配
    - 根云盘：设置MaaS节点根云盘规格。生产环境建议设置为2TB
    - 主存储：可选项。为MaaS节点指定主存储。如不指定，将由系统自动分配
    - Ceph存储池：如主存储为Ceph类型，需选择Ceph存储池
    - Model Center端口：设置Model Center端口，默认为5000
  - Redis节点设置：配置AI模型平台Redis节点。该步骤将创建3台云主机作为AI模型平台Redis节点 (哨兵模式) 。
    - CPU：设置Redis节点CPU，POC和生产环境建议设置为8核
    - 内存：设置Redis节点内存，POC环境建议设置为16GB，生产环境建议设置为32GB
    - 集群：可选项。为Redis节点指定集群
    - 存储网络IP：可选项。为Redis节点指定存储网络IP
      说明：
      
      如不指定，系统将自动分配存储网络IP。
      
      如指定，需输入一个IP地址，系统将以该IP为始，为三台Redis节点依次分配IP地址。
    - 物理机：可选项。为Redis节点指定物理机
    - 根云盘：设置Redis节点根云盘规格，POC环境建议设置为100GB，生产环境建议设置为200GB
    - 主存储：可选项。为Redis节点指定主存储
    - Ceph存储池：如主存储为Ceph类型，需选择Ceph存储池
    - Redis端口：设置Redis端口，默认为6379
    - Redis哨兵端口：设置Redis哨兵端口，默认为5666
    - Redis密码：使用默认密码，不要修改
  - 后端存储设置：设置AI模型平台ZDFS存储，请提前准备NFS或S3存储系统
    说明：
    
    如使用物理/虚拟服务器搭建NFS服务，请配置共享目录权限为 (rw,sync,no_root_squash)
    
    建议后端存储系统使用SSD以获得更高性能。
    
    请注意备份数据存储，确保数据丢失或发生错误时可及时恢复。
    - 后端存储类型：选择后端存储类型，支持NFS或S3存储
    - 后端存储端点：填写存储服务地址，例如：172.25.16.104:/nfs_root/或http:192.168.0.1:9000/storage-bucket
      说明： NFS存储服务地址必须以/结尾。
    - S3后端存储访问密钥：存储类型为S3时需填写该参数
    - S3后端存储密钥：存储类型为S3时需填写该参数
  如图1所示：
  
  图1 安装ZStack AI模型平台
  
  点击确定，等待应用安装完成。
3. 查看AI模型平台服务状态
  在ZStack AIOS主菜单，点击AI模型平台 > 统计和管理 > 模型平台配置，进入模型平台配置界面，确认各服务状态均显示为正常，且服务配置与安装ZStack AI模型平台时定义的相符。
  
  如图2所示：
  
  图2 查看AI模型平台服务状态
4. 设置云主机默认服务网络
  在模型平台配置界面，点击左上角修改配置，手动设置云主机资源配置-默认服务网络
  说明：请确保已将规划的业务网络作为三层网络添加到ZStack AIOS，并开启DHCP和Userdata服务。
  
  如图3所示：
  
  图3 设置云主机默认服务网络
上传预置模型文件包
1. 根据准备工作-软件工具，准备预置模型文件包 (完整)
2. 登录Model Center，将预置模型文件包上传到 /root/bentoml/目录，并执行tar -xzvf Models_5.5.6.tar.gz解压
  i说明：
  - 查看Model Center IP地址，可在应用市场界面，点击默认应用 > 已安装，找到已部署的ZStack AI模型平台卡片。点击卡片右上角... > 查看云主机，找到名称为Marketplace-AIOS-ModelCenter的云主机，该云主机即为Model Center。
  - 登录Model Center，默认账号为root；默认密码为AIOS@admin123
  如图4所示：
  
  图4 查看Model Center
3. 查看预置模型文件
  预置模型文件包解压后，可看到以下子目录：
  - datasets：存放数据集文件
  - model_evaluations：存放服务评测结果
  - models：存放模型文件
  - Others：存放用户自定义上传的非bentoml架构的推理模板代码
  - fine_tune_save：存放精调后导出的模型
  - tmp：临时目录
上传预置推理模板包
1. 根据准备工作-软件工具，准备预置推理模板包
2. 登录Model Center，将预置推理模板包上传到 /root/bentoml/目录，并执行tar -xzvf ModelServices_5.5.22_${Architecture}.tar.gz解压
3. 查看预置推理模板
  预置推理模板解压后，可看到以下子目录：
  - custom_model_services：存放系统默认的推理模板代码
设置AI推理镜像 (云主机) 为全局共享
登录ZStack AIOS UI界面，点击资源中心 > 云资源池 > 计算配置 > 镜像，找到AI推理镜像，点击操作 > 设置共享模式，将该镜像设置为全局共享。
i说明：
- x86 AI推理镜像默认名称为：zstack-ai-inference-vm-ubuntu22.04-cuda125-python310-5.5.22
- ARM AI推理镜像默认名称为：zstack-ai-inference-vm-openeuler2403sp1-CANN8.1.RC1-python311-5.5.22
(可选) 为物理机安装dGPU依赖工具包

说明：如不使用dGPU模式，可跳过本步骤。
根据准备工作-软件工具，获取dGPU依赖工具包，将其上传到需开启dGPU模式的物理机，并登录该物理机执行以下命令：
```
[root@localhost~]# bash zstack-dgpu-toolkit.bin
```
该工具包用于为物理机安装dGPU模式所需依赖。安装完成后，可在该物理机上启用dGPU模式。
(可选) 配置AI模型平台代理服务器

说明：配置代理服务器后，AI模型平台可访问Hugging Face等网站。请根据实际情况按需配置。

在ZStack AIOS UI界面，点击AI模型平台 > 统计和管理 > 模型平台配置，进入模型平台配置界面。在模型平台配置界面，点击修改配置，弹出编辑模型平台服务器界面。

修改管理服务部分以下参数
- 代理服务：勾选使用代理服务
- 代理服务器地址：填写代理服务器IP地址
- 代理服务端口：填写代理服务端口
- 代理服务器登录名：可选项。填写代理服务器登录名
- 代理服务器密码：可选项。填写代理服务器密码
- 代理忽略地址：可选项。添加代理忽略地址
如图5所示：

图5 配置代理服务器

至此，AI模型平台已部署完成。用户可在AI模型平台基于云主机部署推理服务、应用开发服务，或使用其他功能。也可以继续部署容器管理，为AI模型平台提供容器引擎。