创建服务评测任务分为以下场景:
创建服务性能评测任务
在ZStack AIOS主菜单,点击,进入服务性能评测界面。在服务性能评测界面,点击创建性能评测任务,进入创建性能评测任务界面。
如图1所示:



图1 创建性能评测任务



可参考以下示例输入相应内容:
- 基本信息
- 名称:设置服务评测任务名称。系统提供默认名称,支持按需修改
- 简介:可选项,填写评测任务简介
- 服务来源:选择需评测的服务来源。支持对本平台内的推理服务进行评测,也支持对外部推理服务进行评测
- 平台中的推理服务:对本平台内的推理服务进行评测,需设置以下参数
- API类型:选择API类型,支持OpenAI、DashScope两种类型
- 推理服务:选择本平台内的一个推理服务
- 输入服务API:通过API,对外部推理服务进行评测,需设置以下参数:
- API类型:选择API类型,支持OpenAI、DashScope两种类型
- 服务API:输入外部推理服务API
- 平台中的推理服务:对本平台内的推理服务进行评测,需设置以下参数
- 模型:可选项。推理服务包含多个模型时,可针对指定的模型进行评测。如留空不填,则默认对服务Model
List中的第一个模型进行评测说明: 如指定,请填写推理代码中的对应 model_id。
- 数据集来源:支持使用本平台内的数据集对服务进行评测,也可以直接输入Prompt
- 平台中的数据集:需选择平台内的数据集用于评测。支持单选或多选,选择多个数据集时,系统将针对每个数据集分别创建一个评测任务
- Prompt:直接输入Prompt用于评测,支持逐行 (Line-by-Line)
、LongAlpaca、OpenQA 三种格式。
- 逐行 (Line-by-Line) :每一行内容分别作为一个提示。
- LongAlpaca:获取 item['instruction'] 作为提示。
- OpenQA:获取 item['question'] 作为提示。
- 评测配置
- 并发数量:设置评测时向服务发送的请求并发数量
- 采样请求总数:设置评测时向服务发送到的请求总数
- 每个查询记录日志:设置每个查询记录日志
- 网络读取连接时间:设置评测时请求发出到与服务建立连接的所需时间
- 网络读取超时时间:设置网络读取超时时间,如超过该时间服务未做出返回,则视为超时
- 单次请求最大长度:设置评测时单次请求的最大长度长度
- 采样温度:设置评测采样温度,取值范围:0-1
- top_P采样:设置top_P采样值,取值范围:0-1
- 请求标头:可选项。指定评测时使用的请求Header。点击添加Header即可添加
- 资源配置
- 部署方式:选择运行该评测任务的实例类型,目前仅支持云主机部署
- CPU架构:选择云主机CPU架构说明: 请确保平台内存在所选架构的物理机集群,以便将云主机部署到对应的集群。
- 高级选项:可选项,指定云主机所在的集群、主存储、网卡IP。如不指定,将由系统将自动分配
- CPU和内存:设置云主机CPU核数和内存大小
创建模型能力评测任务
在ZStack AIOS主菜单,点击,进入服务性能评测界面。在模型能力评测界面,点击创建模型能力评测任务,进入创建模型能力评测任务界面。
如图2所示:

图2 创建模型能力评测任务

可参考以下示例输入相应内容:
- 基本信息
- 名称:设置服务评测任务名称
- 简介:可选项,填写评测任务简介
- 推理服务:选择本平台内的一个推理服务
- 数据集:选择平台内的数据集用于评测。支持单选或多选,选择多个数据集时,系统将针对每个数据集分别创建一个评测任务
- 采样数量:设置抽取并用于评测的样本数量,支持全部采样、部分采样两种方式
- 全部采样:将数据集中的所有样本用于服务评估
- 部分采样:抽取数据集中的部分样本进行服务评估,此时,需填写抽取的样本数量
- 资源配置
- 部署方式:选择运行该评测任务的实例类型,目前仅支持云主机部署
- CPU架构:选择云主机CPU架构说明: 请确保平台内存在所选架构的物理机集群,以便将云主机部署到对应的集群。
- 高级选项:可选项,指定云主机所在的集群、主存储、网卡IP。如不指定,将由系统自动分配
- CPU和内存:设置云主机CPU核数和内存大小