ZStack AIOS支持用户添加自定义数据集。
在ZStack AIOS主菜单,点击,在自定义数据集标签页,点击添加数据集,弹出添加数据集界面。
如图1所示:

图1 添加自定义数据集

说明:
- 添加数据集任务支持断点续传。在网络异常、服务重启或资源不足等情况下,任务将自动暂停,并在条件恢复后继续执行。
- 用户可手动暂停、恢复或取消任务。暂停超过24小时未继续,已下载数据将被自动清理,取消任务后需重新上传或下载。
支持以下三种数据集添加方式:
通过本地文件添加
- 准备数据集文件。
- 数据集文件需打包为 .tar 格式上传,提前准备 .tar 格式的文件包。
- 提前在dataset_info.json文件中添加数据集描述,并修改其中的数据集名称配置。说明: 获取dataset_info.json配置指导,可进入ZStack AIOS 添加数据集界面,点击下载数据集描述文件模板。
- 进入ZStack AIOS
添加数据集界面。可参考以下示例输入相应内容:
- 名称:设置数据集名称。名称格式:1-128个字符,支持中文汉字、英文字母、数字、空格和以下7
种英文字符
-_.():+ - 简介:可选项,填写数据集简介
- 使用场景:选择数据集使用场景,支持模型精调、模型能力评测、服务性能评测三种使用场景,支持单选或多选。创建完成后,该数据集可在指定的场景使用
- 数据类型:选择数据集包含的数据类型
- 类型:选择本地上传
- 数据集文件:上传.tar格式的数据集文件包
- 名称:设置数据集名称。名称格式:1-128个字符,支持中文汉字、英文字母、数字、空格和以下7
种英文字符
- 点击确定,开始添加数据集。
通过URL添加
该方式将从指定URL获取数据集文件,URL可以是一个外部网址,也可以是平台管理服务器上的存储路径。
- 准备数据集文件。
- 确保URL上已存在 .tar 格式的数据集文件包。
- 确保dataset_info.json文件中已添加数据集描述,并修改数据集名称配置。说明: 获取dataset_info.json配置指导,可进入ZStack AIOS 添加数据集界面,点击下载数据集描述文件模板。
- 进入ZStack AIOS
添加数据集界面。可参考以下示例输入相应内容:
- 名称:设置数据集名称。名称格式:1-128个字符,支持中文汉字、英文字母、数字、空格和以下7种英文字符
-_.():+ - 简介:可选项,填写数据集简介
- 使用场景:选择数据集使用场景,支持模型精调、模型能力评测、服务性能评测三种使用场景,支持单选或多选。创建完成后,该数据集可在指定的场景使用
- 数据类型:选择数据集包含的数据类型
- 类型:选择URL
- URL:填写数据集URL说明:
- URL必须指向一个文件目录或 .tar 格式的文件。
- 网络地址必须以 http:// 或 https:// 开头,例如:http://172.1.1.10/、http://172.1.1.10/example.tar
- 存储路径必须以 file:/// 开头,例如:file:///root/foldname、file:///root/foldname/example.tar
- 名称:设置数据集名称。名称格式:1-128个字符,支持中文汉字、英文字母、数字、空格和以下7种英文字符
- 点击确定,开始添加数据集。
从Hugging Face导入
本方法从Hugging Face拉取数据集。需提前获取 Hugging Face Dataset ID、Access Token ,并确保ZStack AIOS环境可访问 Hugging Face。
- 获取模型 Dataset ID。
登录 Hugging Face ,在 Hugging Face 主菜单点击Datasets,进入Datasets界面。点击需导入的数据集,进入其详情页。详情页最上方的标题即 为Dataset ID ,可点击复制按钮直接复制。
如图2所示:

图2 Hugging Face | 获取Dataset ID - 获取Access Token。
- 在Hugging
Face主菜单,点击右上角头像展开个人中心。在个人中心,点击Access
Tokens,进入Access
Tokens界面。点击Create new
token,弹出Create new
token界面。如图3所示:


图3 Hugging Face | 进入Create new token界面 - 在Create new token界面,设置以下参数:
- Token type:选择Read
- Token name:输入Token名称
点击Create token确认创建。
如图4所示:
图4 Hugging Face |创建Access Token - Access
Token创建完成后,界面将返回Token值。点击Copy复制Token值。如图5所示:

图5 Hugging Face | 复制Token
- 在Hugging
Face主菜单,点击右上角头像展开个人中心。在个人中心,点击Access
Tokens,进入Access
Tokens界面。点击Create new
token,弹出Create new
token界面。
- 将数据集上传到ZStack AIOS。
登录ZStack AIOS UI界面,点击,进入自定义数据集界面。在自定义数据集界面,点击添加数据集,弹出添加数据集界面。
可参考以下示例输入相应内容:- 名称:设置数据集名称。名称格式:1-128个字符,支持中文汉字、英文字母、数字、空格和以下
7 种英文字符
-_.():+ - 简介:可选项,填写数据集简介
- 使用场景:选择数据集使用场景,支持模型精调、模型能力评测、服务性能评测三种使用场景,支持单选或多选。创建完成后,该数据集可在指定的场景使用
- 数据类型:选择数据集包含的数据类型
- 类型:选择Hugging Face
- Dataset ID:填写在Hugging Face获取的数据集Dataset ID
- Token:填写在Hugging Face获取的Access Token
- 名称:设置数据集名称。名称格式:1-128个字符,支持中文汉字、英文字母、数字、空格和以下
7 种英文字符