数据集是一组结构化的数据集合,通常包含输入数据和对应的预期输出,可用于模型精调和评测。
数据集类型
- 按生成机制,ZStack AIOS数据集分为系统数据集和自定义数据集。
类型 定义 系统数据集 - ZStack AIOS预置的开源数据集,包括:MMLU、CMNLI、CMRC、HumanEval、OpenQA等。
- 目前,ZStack AIOS提供的系统数据集主要用于模型评测场景
自定义数据集 由用户自行上传的数据集 - 按使用场景,ZStack AIOS数据集分为模型精调数据集、模型能力评测数据集、服务性能评测数据集。
类型 定义 模型精调数据集 用于对已有模型进行针对性训练的数据集合,模型通过学习数据集中输入数据与预期输出间的映射关系,提升在目标业务场景中的表现能力 模型能力评测数据集 - 用于评估模型在特定任务上能力边界的数据集合,通过量化指标验证模型能力是否达到预期
- 目前,系统模型能力评测数据集支持以下量化指标:准确率 (Accuracy) 、ROUGE-1、ROUGE-2、ROUGE-L、Pass@k (k=1) 、BLEU、F1-score、Exact Match
服务性能评测数据集 用于评测模型吞吐量、延迟等性能的数据集合,通过模拟真实请求和极端负载,验证服务稳定性和效率