在模型推理过程中,长上下文将显著增加计算量和显存占用,可能导致服务延迟增加、吞吐量下降。
本场景假定某用户已部署一个推理服务,需评测其在长上下文压力下的性能表现能否满足业务预期。
本节以上述场景为例,详细介绍对推理服务性能进行长上下文压测的方法,主要包括以下步骤:
- 准备数据集
- 创建服务性能评测任务
- 查看性能评测结果
-
准备数据集
-
从HuggingFace、ModelScope下载适用于长文本性能测试的数据集或自行构建
ZStack AIOS提供示例数据集,可点击以下链接,直接下载LongDPO_1K_openqa.jsonl.tar或LongDPO_2K_openqa.jsonl.tar使用如图1所示:

图1 下载示例数据集 i说明:- 仅支持openqa格式的数据集
- ZStack AIOS将提取
['question']作为提示词进行压测 - 上传到ZStack AIOS前,请将数据集文件打包为.tar格式
-
将数据集上传到ZStack AIOS
在ZStack AIOS主菜单,点击AI模型平台 > 数据集 > 自定义数据集,进入自定义数据集界面。点击添加数据集,弹出添加数据集界面。可参考以下示例输入相应内容:
- 名称:输入数据集名称
- 简介:可选项,可留空不填
- 使用场景:勾选服务性能评测
- 数据类型:选择文本
- 类型:选择数据集上传方法,本场景选择本地上传
- 数据集文件:上传.tar格式的数据集文件
如图2所示:
图2 上传数据集
-
从HuggingFace、ModelScope下载适用于长文本性能测试的数据集或自行构建
-
创建服务性能评测任务
在ZStack AIOS主菜单,点击AI模型平台 > 服务评测 > 服务性能评测,进入服务性能评测界面。点击创建性能评测任务,弹出创建性能评测任务界面。可参考以下示例输入相应内容:
- 基本信息
- 名称:设置评测任务名称,本场景使用默认名称
- 简介:可选项,可留空不填
- 服务来源:支持评测本平台中的推理服务或通过API测评本平台外的推理服务。本场景选择平台中的推理服务
- API类型:选择推理服务API类型
- 选择推理服务:选择需评测的推理服务
- 模型:可选项,推理服务包含多个模型时,可指定模型进行评测i说明:
- 如不指定,默认对推理服务Model List中的第一个模型进行评测
- 如指定,输入的模型名称需和推理代码中的model_id保持一致
- 数据集来源:选择平台中的数据集
- 选择数据集:选择上一步中添加的数据集
- 评测配置
- 单次请求最大长度:设置单次请求最大Token数i说明: 请合理设置单次请求最大长度,避免服务输出被截断,影响评测结果。例如:
- 使用1K数据集,建议设置为8192或以上
- 使用2K数据集,建议设置为16384或以上
- 其他配置参数可按实际需求设置
- 单次请求最大长度:设置单次请求最大Token数
- 资源配置
- 部署方式:当前仅支持云主机部署
- CPU架构:选择云主机CPU架构
- CPU和内存:设置云主机CPU和内存
如图3所示:图3 创建服务性能评测任务 
- 基本信息
-
查看性能评测结果
等待评测任务完成后,进入任务详情页,即可查看评测报告:
- 查看每个请求的平均输入Token和每个请求的平均输出Token,确认本评测是否符合长上下文压测的要求
- 查看吞吐量、延迟等性能指标,评估推理服务性能是否满足业务需求
如图4所示:
图4 性能评测结果