ZStack 资源中心

在模型推理过程中，长上下文将显著增加计算量和显存占用，可能导致服务延迟增加、吞吐量下降。

本场景假定某用户已部署一个推理服务，需评测其在长上下文压力下的性能表现能否满足业务预期。

本节以上述场景为例，详细介绍对推理服务性能进行长上下文压测的方法，主要包括以下步骤：

准备数据集
创建服务性能评测任务
查看性能评测结果

准备数据集
1. 从HuggingFace、ModelScope下载适用于长文本性能测试的数据集或自行构建
  ZStack AIOS提供示例数据集，可点击以下链接，直接下载LongDPO_1K_openqa.jsonl.tar或LongDPO_2K_openqa.jsonl.tar使用
  - 通过HuggingFace下载
  - 通过ModelScope下载
  如图1所示：
  
  图1 下载示例数据集
  i说明：
  - 仅支持openqa格式的数据集
  - ZStack AIOS将提取['question']作为提示词进行压测
  - 上传到ZStack AIOS前，请将数据集文件打包为.tar格式
2. 将数据集上传到ZStack AIOS
  在ZStack AIOS主菜单，点击AI模型平台 > 数据集 > 自定义数据集，进入自定义数据集界面。点击添加数据集，弹出添加数据集界面。
  可参考以下示例输入相应内容：
  - 名称：输入数据集名称
  - 简介：可选项，可留空不填
  - 使用场景：勾选服务性能评测
  - 数据类型：选择文本
  - 类型：选择数据集上传方法，本场景选择本地上传
  - 数据集文件：上传.tar格式的数据集文件
  如图2所示：
  
  图2 上传数据集
创建服务性能评测任务
在ZStack AIOS主菜单，点击AI模型平台 > 服务评测 > 服务性能评测，进入服务性能评测界面。点击创建性能评测任务，弹出创建性能评测任务界面。
可参考以下示例输入相应内容：
- 基本信息
  - 名称：设置评测任务名称，本场景使用默认名称
  - 简介：可选项，可留空不填
  - 服务来源：支持评测本平台中的推理服务或通过API测评本平台外的推理服务。本场景选择平台中的推理服务
  - API类型：选择推理服务API类型
  - 选择推理服务：选择需评测的推理服务
  - 模型：可选项，推理服务包含多个模型时，可指定模型进行评测
    说明：
    
    如不指定，默认对推理服务Model List中的第一个模型进行评测
    
    如指定，输入的模型名称需和推理代码中的model_id保持一致
  - 数据集来源：选择平台中的数据集
  - 选择数据集：选择上一步中添加的数据集
- 评测配置
  - 单次请求最大长度：设置单次请求最大Token数
    说明：请合理设置单次请求最大长度，避免服务输出被截断，影响评测结果。例如：
    
    使用1K数据集，建议设置为8192或以上
    
    使用2K数据集，建议设置为16384或以上
  - 其他配置参数可按实际需求设置
- 资源配置
  - 部署方式：当前仅支持云主机部署
  - CPU架构：选择云主机CPU架构
  - CPU和内存：设置云主机CPU和内存
如图3所示：

图3 创建服务性能评测任务
查看性能评测结果
等待评测任务完成后，进入任务详情页，即可查看评测报告：
- 查看每个请求的平均输入Token和每个请求的平均输出Token，确认本评测是否符合长上下文压测的要求
- 查看吞吐量、延迟等性能指标，评估推理服务性能是否满足业务需求
如图4所示：

图4 性能评测结果

至此，长上下文场景下的推理服务性能评测已完成。

评测长上下文场景下推理服务吞吐性能