ZStack Logo

ZStack AIOS

添加数据集

按 AI 模型平台功能组织的 UI 操作说明和配置入口。

ZStack AIOS支持用户添加自定义数据集。

ZStack AIOS主菜单,点击AI模型平台 > 模型调优 > 数据集 > 自定义数据集,在自定义数据集标签页,点击添加数据集,弹出添加数据集界面。

图1所示:


图1 添加自定义数据集
说明:
  • 添加数据集任务支持断点续传。在网络异常、服务重启或资源不足等情况下,任务将自动暂停,并在条件恢复后继续执行。
  • 用户可手动暂停、恢复或取消任务。暂停超过24小时未继续,已下载数据将被自动清理,取消任务后需重新上传或下载。
支持以下三种数据集添加方式:

通过本地文件添加

  1. 准备数据集文件。
    • 数据集文件需打包为 .tar 格式上传,提前准备 .tar 格式的文件包。
    • 提前在dataset_info.json文件中添加数据集描述,并修改其中的数据集名称配置。
      说明: 获取dataset_info.json配置指导,可进入ZStack AIOS 添加数据集界面,点击下载数据集描述文件模板
  2. 进入ZStack AIOS 添加数据集界面。
    可参考以下示例输入相应内容:
    • 名称:设置数据集名称。名称格式:1-128个字符,支持中文汉字、英文字母、数字、空格和以下7 种英文字符-_.():+
    • 简介:可选项,填写数据集简介
    • 使用场景:选择数据集使用场景,支持模型精调、模型能力评测、服务性能评测三种使用场景,支持单选或多选。创建完成后,该数据集可在指定的场景使用
    • 数据类型:选择数据集包含的数据类型
    • 类型:选择本地上传
    • 数据集文件:上传.tar格式的数据集文件包
  3. 点击确定,开始添加数据集。

通过URL添加

该方式将从指定URL获取数据集文件,URL可以是一个外部网址,也可以是平台管理服务器上的存储路径。
  1. 准备数据集文件。
    • 确保URL上已存在 .tar 格式的数据集文件包。
    • 确保dataset_info.json文件中已添加数据集描述,并修改数据集名称配置。
      说明: 获取dataset_info.json配置指导,可进入ZStack AIOS 添加数据集界面,点击下载数据集描述文件模板
  2. 进入ZStack AIOS 添加数据集界面。
    可参考以下示例输入相应内容:
    • 名称:设置数据集名称。名称格式:1-128个字符,支持中文汉字、英文字母、数字、空格和以下7种英文字符-_.():+
    • 简介:可选项,填写数据集简介
    • 使用场景:选择数据集使用场景,支持模型精调、模型能力评测、服务性能评测三种使用场景,支持单选或多选。创建完成后,该数据集可在指定的场景使用
    • 数据类型:选择数据集包含的数据类型
    • 类型:选择URL
    • URL:填写数据集URL
      说明:
      • URL必须指向一个文件目录或 .tar 格式的文件。
      • 网络地址必须以 http:// https:// 开头,例如:http://172.1.1.10/http://172.1.1.10/example.tar
      • 存储路径必须以 file:/// 开头,例如:file:///root/foldnamefile:///root/foldname/example.tar
  3. 点击确定,开始添加数据集。

从Hugging Face导入

本方法从Hugging Face拉取数据集。需提前获取 Hugging Face Dataset ID、Access Token ,并确保ZStack AIOS环境可访问 Hugging Face。

  1. 获取模型 Dataset ID。

    登录 Hugging Face ,在 Hugging Face 主菜单点击Datasets,进入Datasets界面。点击需导入的数据集,进入其详情页。详情页最上方的标题即 为Dataset ID ,可点击复制按钮直接复制。

    图2所示:




    图2 Hugging Face | 获取Dataset ID
  2. 获取Access Token。
    1. 在Hugging Face主菜单,点击右上角头像展开个人中心。在个人中心,点击Access Tokens,进入Access Tokens界面。点击Create new token,弹出Create new token界面。
      图3所示:




      图3 Hugging Face | 进入Create new token界面
    2. Create new token界面,设置以下参数:
      • Token type:选择Read
      • Token name:输入Token名称

      点击Create token确认创建。

      图4所示:


      图4 Hugging Face |创建Access Token
    3. Access Token创建完成后,界面将返回Token值。点击Copy复制Token值。
      图5所示:


      图5 Hugging Face | 复制Token
  3. 将数据集上传到ZStack AIOS

    登录ZStack AIOS UI界面,点击AI模型平台 > 模型调优 > 数据集 > 自定义数据集,进入自定义数据集界面。在自定义数据集界面,点击添加数据集,弹出添加数据集界面。

    可参考以下示例输入相应内容:
    • 名称:设置数据集名称。名称格式:1-128个字符,支持中文汉字、英文字母、数字、空格和以下 7 种英文字符-_.():+
    • 简介:可选项,填写数据集简介
    • 使用场景:选择数据集使用场景,支持模型精调、模型能力评测、服务性能评测三种使用场景,支持单选或多选。创建完成后,该数据集可在指定的场景使用
    • 数据类型:选择数据集包含的数据类型
    • 类型:选择Hugging Face
    • Dataset ID:填写在Hugging Face获取的数据集Dataset ID
    • Token:填写在Hugging Face获取的Access Token

后续操作

数据集添加完成后,可继续进行以下操作: