ZStack 资源中心

创建服务评测任务分为以下场景：

创建服务性能评测任务
创建模型能力评测任务

创建服务性能评测任务

在ZStack AIOS主菜单，点击AI模型平台 > 服务和应用 > 服务评测 > 服务性能评测，进入服务性能评测界面。在服务性能评测界面，点击创建性能评测任务，进入创建性能评测任务界面。

如图1所示：

可参考以下示例输入相应内容：

基本信息
- 名称：设置服务评测任务名称。系统提供默认名称，支持按需修改
- 简介：可选项，填写评测任务简介
- 服务来源：选择需评测的服务来源。支持对本平台内的推理服务进行评测，也支持对外部推理服务进行评测
  - 平台中的推理服务：对本平台内的推理服务进行评测，需设置以下参数
    - API类型：选择API类型，支持OpenAI、DashScope两种类型
    - 推理服务：选择本平台内的一个推理服务
  - 输入服务API：通过API，对外部推理服务进行评测，需设置以下参数：
    - API类型：选择API类型，支持OpenAI、DashScope两种类型
    - 服务API：输入外部推理服务API
- 模型：可选项。推理服务包含多个模型时，可针对指定的模型进行评测。如留空不填，则默认对服务Model List中的第一个模型进行评测
  说明：如指定，请填写推理代码中的对应 model_id。
- 数据集来源：支持使用本平台内的数据集对服务进行评测，也可以直接输入Prompt
  - 平台中的数据集：需选择平台内的数据集用于评测。支持单选或多选，选择多个数据集时，系统将针对每个数据集分别创建一个评测任务
  - Prompt：直接输入Prompt用于评测，支持逐行 (Line-by-Line) 、LongAlpaca、OpenQA 三种格式。
    - 逐行 (Line-by-Line) ：每一行内容分别作为一个提示。
    - LongAlpaca：获取 item['instruction'] 作为提示。
    - OpenQA：获取 item['question'] 作为提示。
评测配置
- 并发数量：设置评测时向服务发送的请求并发数量
- 采样请求总数：设置评测时向服务发送到的请求总数
- 每个查询记录日志：设置每个查询记录日志
- 网络读取连接时间：设置评测时请求发出到与服务建立连接的所需时间
- 网络读取超时时间：设置网络读取超时时间，如超过该时间服务未做出返回，则视为超时
- 单次请求最大长度：设置评测时单次请求的最大长度长度
- 采样温度：设置评测采样温度，取值范围：0-1
- top_P采样：设置top_P采样值，取值范围：0-1
- 请求标头：可选项。指定评测时使用的请求Header。点击添加Header即可添加
资源配置
- 部署方式：选择运行该评测任务的实例类型，目前仅支持云主机部署
- CPU架构：选择云主机CPU架构
  说明：请确保平台内存在所选架构的物理机集群，以便将云主机部署到对应的集群。
- 高级选项：可选项，指定云主机所在的集群、主存储、网卡IP。如不指定，将由系统将自动分配
- CPU和内存：设置云主机CPU核数和内存大小

创建模型能力评测任务

在ZStack AIOS主菜单，点击AI模型平台 > 服务和应用 > 服务评测 > 服务性能评测，进入服务性能评测界面。在模型能力评测界面，点击创建模型能力评测任务，进入创建模型能力评测任务界面。

如图2所示：

可参考以下示例输入相应内容：

基本信息
- 名称：设置服务评测任务名称
- 简介：可选项，填写评测任务简介
- 推理服务：选择本平台内的一个推理服务
- 数据集：选择平台内的数据集用于评测。支持单选或多选，选择多个数据集时，系统将针对每个数据集分别创建一个评测任务
- 采样数量：设置抽取并用于评测的样本数量，支持全部采样、部分采样两种方式
  - 全部采样：将数据集中的所有样本用于服务评估
  - 部分采样：抽取数据集中的部分样本进行服务评估，此时，需填写抽取的样本数量
资源配置
- 部署方式：选择运行该评测任务的实例类型，目前仅支持云主机部署
- CPU架构：选择云主机CPU架构
  说明：请确保平台内存在所选架构的物理机集群，以便将云主机部署到对应的集群。
- 高级选项：可选项，指定云主机所在的集群、主存储、网卡IP。如不指定，将由系统自动分配
- CPU和内存：设置云主机CPU核数和内存大小