ZStack Logo

ZStack AIOS

评测长上下文场景下推理服务吞吐性能

AIOS 用户侧功能说明,覆盖 GPU、模型仓库、推理服务和场景实践。

在模型推理过程中,长上下文将显著增加计算量和显存占用,可能导致服务延迟增加、吞吐量下降。

本场景假定某用户已部署一个推理服务,需评测其在长上下文压力下的性能表现能否满足业务预期。

本节以上述场景为例,详细介绍对推理服务性能进行长上下文压测的方法,主要包括以下步骤:

  1. 准备数据集
  2. 创建服务性能评测任务
  3. 查看性能评测结果
  1. 准备数据集
    1. 从HuggingFace、ModelScope下载适用于长文本性能测试的数据集或自行构建
      ZStack AIOS提供示例数据集,可点击以下链接,直接下载LongDPO_1K_openqa.jsonl.tarLongDPO_2K_openqa.jsonl.tar使用
      图1所示:


      图1 下载示例数据集
      说明:
      • 仅支持openqa格式的数据集
      • ZStack AIOS将提取['question'] 作为提示词进行压测
      • 上传到ZStack AIOS前,请将数据集文件打包为.tar格式
    2. 将数据集上传到ZStack AIOS
      ZStack AIOS主菜单,点击AI模型平台 > 数据集 > 自定义数据集,进入自定义数据集界面。点击添加数据集,弹出添加数据集界面。
      可参考以下示例输入相应内容:
      • 名称:输入数据集名称
      • 简介:可选项,可留空不填
      • 使用场景:勾选服务性能评测
      • 数据类型:选择文本
      • 类型:选择数据集上传方法,本场景选择本地上传
      • 数据集文件:上传.tar格式的数据集文件
      图2所示:


      图2 上传数据集
  2. 创建服务性能评测任务
    ZStack AIOS主菜单,点击AI模型平台 > 服务评测 > 服务性能评测,进入服务性能评测界面。点击创建性能评测任务,弹出创建性能评测任务界面。
    可参考以下示例输入相应内容:
    • 基本信息
      • 名称:设置评测任务名称,本场景使用默认名称
      • 简介:可选项,可留空不填
      • 服务来源:支持评测本平台中的推理服务或通过API测评本平台外的推理服务。本场景选择平台中的推理服务
      • API类型:选择推理服务API类型
      • 选择推理服务:选择需评测的推理服务
      • 模型:可选项,推理服务包含多个模型时,可指定模型进行评测
        说明:
        • 如不指定,默认对推理服务Model List中的第一个模型进行评测
        • 如指定,输入的模型名称需和推理代码中的model_id保持一致
      • 数据集来源:选择平台中的数据集
      • 选择数据集:选择上一步中添加的数据集
    • 评测配置
      • 单次请求最大长度:设置单次请求最大Token数
        说明: 请合理设置单次请求最大长度,避免服务输出被截断,影响评测结果。例如:
        • 使用1K数据集,建议设置为8192或以上
        • 使用2K数据集,建议设置为16384或以上
      • 其他配置参数可按实际需求设置
    • 资源配置
      • 部署方式:当前仅支持云主机部署
      • CPU架构:选择云主机CPU架构
      • CPU和内存:设置云主机CPU和内存
    图3所示:
    图3 创建服务性能评测任务

  3. 查看性能评测结果
    等待评测任务完成后,进入任务详情页,即可查看评测报告:
    • 查看每个请求的平均输入Token每个请求的平均输出Token,确认本评测是否符合长上下文压测的要求
    • 查看吞吐量延迟等性能指标,评估推理服务性能是否满足业务需求
    图4所示:


    图4 性能评测结果
至此,长上下文场景下的推理服务性能评测已完成。