You need to enable JavaScript to run this app.
导航
在线服务压力测试
最近更新时间:2025.08.16 17:50:43首次发布时间:2025.08.16 17:50:43
复制全文
我的收藏
有用
有用
无用
无用

在线服务压力测试功能可以对你的 AI 服务进行全面的性能与稳定性验证。通过模拟真实负载,你可以获取详细的性能报告,确保服务在交付或上线前满足性能要求。该功能适用于对大语言模型 (Large Language Model, LLM)、视觉语言模型 (Vision Language Model, VLM) 及多种 Diffusion Transformer (DiT) 模型进行压力测试的场景。本文档将指导你如何创建并管理一个在线服务压力测试任务。

功能介绍

创建压测任务,会使用自定义任务形式,请求在线服务。按照预定的策略逐步增加请求并发量(QPS),并记录请求的各项数据。
Image
当前支持 3 类大模型(LLM、VLM、DiT),6 种模型服务:

  • 大语言模型服务(LLM)
  • 视觉大模型服务(VLM)
  • 文生视频模型服务(DiT)
  • 图生视频模型服务(DiT)
  • 首尾帧图生视频模型服务(DiT)
  • 文生图模型服务(DiT)

使用限制
  • VLM 压测任务不支持用户自定义数据集路径。
  • DiT 压测任务不支持用户自定义数据集路径。

前提条件

在开始创建压测任务前,请确保满足以下条件:

  • 服务端口已配置:你需要压测的在线服务已正确部署,且其服务端口用途已在平台配置。压测配置中的 压测地址 下拉框将仅展示这些已配置的端口。
  • 数据集已准备 (LLM):若要对 LLM 服务进行压测并使用自定义数据集,请确保你的数据集文件已上传至对象存储 (TOS)、网络附加存储 (Network-Attached Storage, NAS) 或 vePFS,并准备好对应的路径。平台支持 openqa 和 line_by_line 两种数据集格式。

操作步骤

创建压测任务

本流程指导你如何配置并启动一个在线服务压力测试任务。

  1. 创建压测任务 页面,从 服务类型 下拉框中选择你要测试的服务。
    支持的服务类型包括:LLM/VLM/DiT (文生视频)、DiT (图生视频)、DiT (首尾帧)、DiT (文生图)。你选择的服务类型将决定下一步需要配置的具体参数。

  2. 根据你在上一步选择的服务类型,配置相应的压测参数。
    选择 LLM 或 VLM 服务,需配置以下参数:

    配置项

    说明

    任务名称

    必填。为本次压测任务设置一个描述性名称。系统提供默认名称。

    压测地址

    必填。选择服务的协议和地址。下拉框中仅展示已在平台配置过服务端口的地址。支持自定义输入。示例:/api/v1/generate。

    模型地址

    必填。用于获取服务所用模型的 tokenizer,可前往Model ScopeHugging Face 获取模型目录。
    Image

    LLM 压测数据集

    选择用于 LLM 压测的数据集。支持自定义 TOS/NAS/vePFS 路径,并需选择数据集格式(openqa 或 line_by_line)。默认为 ShareGPT 数据集,格式为 openqa。

    VLM 压测数据集

    选择用于 VLM 压测的数据集。不支持自定义路径。默认为 longaplaca/flicker8k。

    模型名称

    必填。输入你要测试的模型名称。

    Header 配置

    配置请求的 HTTP Header。可单击新增。默认包含 Content-Type: application/json。

    输入/输出长度

    必填。设置测试请求的输入和输出 Token 长度,可添加多组。至少需提供一组。默认值为 2500/1500。

    Prefix cache

    选择是否启用 Prefix cache。默认为不启用。

    单个请求样本数

    必填。设置每个请求中包含的样本数量。默认值为 4。

    最大 QPS

    必填。设置压测期间允许达到的最大 QPS。默认值为 1.5。

    起始 QPS

    必填。设置压测开始时的 QPS。默认值为 0.3。

    每阶段增加 QPS

    必填。设置每个测试阶段增加的 QPS。默认值为 0.2。

    每阶段持续时间

    必填。设置每个 QPS 测试阶段的持续时长,单位为秒。默认值为 10。

    任一 DiT 服务,需配置以下参数

    配置项

    说明

    压测地址

    必填。选择服务的协议和地址。下拉框中仅展示已在平台配置过服务端口的地址。支持自定义输入。示例:/api/v1/chat/completions。

    压测数据集

    选择用于 DiT 压测的数据集。不支持自定义路径。默认值为 xxx。

    Header 配置

    配置请求的 HTTP Header。可单击新增。默认包含 Content-Type: application/json。

    输出路径

    必填。输入压测结果(如生成的视频或图片)的存储路径,支持 TOS/NAS/vePFS 路径。

    处理总样本数

    必填。设置本次压测任务需要处理的样本总数。

  3. 完成所有相关参数配置后,单击页面底部的 提交 按钮,系统将根据你的配置创建并启动压测任务。

查看与管理压测任务

任务创建后,你可以随时查看其状态、报告和性能结果。

  1. 导航到压测任务列表页面。你可以看到所有任务的列表及其当前状态(如:运行中、已完成、失败等)。
  2. 单击任意任务,进入其详情页面。在详情页面,你可以查看以下信息:
    • 统计信息:包括压测时长、创建时间、创建者等。
    • 参数配置:完整回顾并确认你在创建任务时提交的所有参数。
    • 压测结果:根据服务类型的不同,系统会展示详细的性能指标表格。
      • LLM / VLM 模型指标:
        • request rate (reqs/s):每秒处理的请求数量。
        • max-concurrency:最大并发处理的请求数。
        • input_len:输入内容的长度(通常以 token 为单位)。
        • output_len:输出内容的长度(通常以 token 为单位)。
        • mean E2E Latency (ms):平均端到端延迟(毫秒),即从请求发出到接收完整响应的平均时间。
        • request throughput (req/s):每秒成功处理的请求吞吐量。
        • throughput (output tokens/s):每秒生成的输出 token 数量。
        • total token throughput (tokens/s):每秒处理的总 token 量(输入 + 输出)。
        • total token throughput (tokens/s/card):每张计算卡每秒处理的总 token 量。
        • Mean TTFT (ms):平均首次 token 输出时间(毫秒),即从请求到生成第一个 token 的平均时间。
        • P99 TTFT (ms):99% 的请求中首次 token 输出时间(毫秒),即 99% 的请求首次输出 token 不会超过该时间。
        • Mean TPOT (ms):平均每输出一个 token 的时间(毫秒)。
        • P99 TPOT (ms):99% 的情况下每输出一个 token 的时间(毫秒),即 99% 的 token 输出间隔不会超过该时间。
      • DiT 模型指标
        • 画面比例:图像或视频的宽度与高度的比例关系。
        • 宽:图像或视频的水平尺寸。
        • 高:图像或视频的垂直尺寸。
        • 帧率:每秒显示的画面帧数。
        • 步数:生成过程中迭代计算的步骤数量。
        • 视频时长:视频从开始到结束的时间长度。
        • 生成类型:生成内容的类别(如图像、视频等)。
        • 公式计算的 tokens:通过公式计算得出的 token 数量。
        • E2E Latency:端到端延迟,从输入到输出完整结果的总时间。
        • Encoder Latency:编码器处理输入所用的时间。
        • DiT Latency:DiT 模型(扩散 Transformer)处理过程的耗时。
        • Decoder Latency:解码器生成输出所用的时间。
        • Iencoder Latency(i2v 模型):图像编码器处理输入图像的耗时。
  3. 在任务详情页面,你可以对任务执行以下管理操作。执行 停止删除 操作时,系统会弹出对话框要求二次确认。
    • 停止:对于正在运行的任务,单击 停止 按钮可提前终止。
    • 删除:对于已完成或已停止的任务,单击 删除 按钮可将其从列表中移除。
    • 复制:单击 复制 按钮,系统将跳转到创建任务页面,并自动填入当前任务的所有配置参数,方便你快速创建相似的测试任务。
  4. 详情页面还提供以下快捷链接,助你进行深度分析:
    • 查看资源用量:单击此按钮将跳转至该服务对应的资源监控页面。
    • 查看完整压测性能表现:单击此按钮将跳转至该服务的推理性能监控页面。