在线服务压力测试功能可以对你的 AI 服务进行全面的性能与稳定性验证。通过模拟真实负载,你可以获取详细的性能报告,确保服务在交付或上线前满足性能要求。该功能适用于对大语言模型 (Large Language Model, LLM)、视觉语言模型 (Vision Language Model, VLM) 及多种 Diffusion Transformer (DiT) 模型进行压力测试的场景。本文档将指导你如何创建并管理一个在线服务压力测试任务。
功能介绍
创建压测任务,会使用自定义任务形式,请求在线服务。按照预定的策略逐步增加请求并发量(QPS),并记录请求的各项数据。

当前支持 3 类大模型(LLM、VLM、DiT),6 种模型服务:
- 大语言模型服务(LLM)
- 视觉大模型服务(VLM)
- 文生视频模型服务(DiT)
- 图生视频模型服务(DiT)
- 首尾帧图生视频模型服务(DiT)
- 文生图模型服务(DiT)
使用限制
- VLM 压测任务不支持用户自定义数据集路径。
- DiT 压测任务不支持用户自定义数据集路径。
前提条件
在开始创建压测任务前,请确保满足以下条件:
- 服务端口已配置:你需要压测的在线服务已正确部署,且其服务端口用途已在平台配置。压测配置中的 压测地址 下拉框将仅展示这些已配置的端口。
- 数据集已准备 (LLM):若要对 LLM 服务进行压测并使用自定义数据集,请确保你的数据集文件已上传至对象存储 (TOS)、网络附加存储 (Network-Attached Storage, NAS) 或 vePFS,并准备好对应的路径。平台支持 openqa 和 line_by_line 两种数据集格式。
操作步骤
创建压测任务
本流程指导你如何配置并启动一个在线服务压力测试任务。
在 创建压测任务 页面,从 服务类型 下拉框中选择你要测试的服务。
支持的服务类型包括:LLM/VLM/DiT (文生视频)、DiT (图生视频)、DiT (首尾帧)、DiT (文生图)。你选择的服务类型将决定下一步需要配置的具体参数。
根据你在上一步选择的服务类型,配置相应的压测参数。
选择 LLM 或 VLM 服务,需配置以下参数:
配置项 | 说明 |
|---|
任务名称 | 必填。为本次压测任务设置一个描述性名称。系统提供默认名称。 |
压测地址 | 必填。选择服务的协议和地址。下拉框中仅展示已在平台配置过服务端口的地址。支持自定义输入。示例:/api/v1/generate。 |
模型地址 | 必填。用于获取服务所用模型的 tokenizer,可前往Model Scope 或 Hugging Face 获取模型目录。
 |
LLM 压测数据集 | 选择用于 LLM 压测的数据集。支持自定义 TOS/NAS/vePFS 路径,并需选择数据集格式(openqa 或 line_by_line)。默认为 ShareGPT 数据集,格式为 openqa。 |
VLM 压测数据集 | 选择用于 VLM 压测的数据集。不支持自定义路径。默认为 longaplaca/flicker8k。 |
模型名称 | 必填。输入你要测试的模型名称。 |
Header 配置 | 配置请求的 HTTP Header。可单击新增。默认包含 Content-Type: application/json。 |
输入/输出长度 | 必填。设置测试请求的输入和输出 Token 长度,可添加多组。至少需提供一组。默认值为 2500/1500。 |
Prefix cache | 选择是否启用 Prefix cache。默认为不启用。 |
单个请求样本数 | 必填。设置每个请求中包含的样本数量。默认值为 4。 |
最大 QPS | 必填。设置压测期间允许达到的最大 QPS。默认值为 1.5。 |
起始 QPS | 必填。设置压测开始时的 QPS。默认值为 0.3。 |
每阶段增加 QPS | 必填。设置每个测试阶段增加的 QPS。默认值为 0.2。 |
每阶段持续时间 | 必填。设置每个 QPS 测试阶段的持续时长,单位为秒。默认值为 10。 |
任一 DiT 服务,需配置以下参数:
配置项 | 说明 |
|---|
压测地址 | 必填。选择服务的协议和地址。下拉框中仅展示已在平台配置过服务端口的地址。支持自定义输入。示例:/api/v1/chat/completions。 |
压测数据集 | 选择用于 DiT 压测的数据集。不支持自定义路径。默认值为 xxx。 |
Header 配置 | 配置请求的 HTTP Header。可单击新增。默认包含 Content-Type: application/json。 |
输出路径 | 必填。输入压测结果(如生成的视频或图片)的存储路径,支持 TOS/NAS/vePFS 路径。 |
处理总样本数 | 必填。设置本次压测任务需要处理的样本总数。 |
完成所有相关参数配置后,单击页面底部的 提交 按钮,系统将根据你的配置创建并启动压测任务。
查看与管理压测任务
任务创建后,你可以随时查看其状态、报告和性能结果。
- 导航到压测任务列表页面。你可以看到所有任务的列表及其当前状态(如:运行中、已完成、失败等)。
- 单击任意任务,进入其详情页面。在详情页面,你可以查看以下信息:
- 统计信息:包括压测时长、创建时间、创建者等。
- 参数配置:完整回顾并确认你在创建任务时提交的所有参数。
- 压测结果:根据服务类型的不同,系统会展示详细的性能指标表格。
- LLM / VLM 模型指标:
- request rate (reqs/s):每秒处理的请求数量。
- max-concurrency:最大并发处理的请求数。
- input_len:输入内容的长度(通常以 token 为单位)。
- output_len:输出内容的长度(通常以 token 为单位)。
- mean E2E Latency (ms):平均端到端延迟(毫秒),即从请求发出到接收完整响应的平均时间。
- request throughput (req/s):每秒成功处理的请求吞吐量。
- throughput (output tokens/s):每秒生成的输出 token 数量。
- total token throughput (tokens/s):每秒处理的总 token 量(输入 + 输出)。
- total token throughput (tokens/s/card):每张计算卡每秒处理的总 token 量。
- Mean TTFT (ms):平均首次 token 输出时间(毫秒),即从请求到生成第一个 token 的平均时间。
- P99 TTFT (ms):99% 的请求中首次 token 输出时间(毫秒),即 99% 的请求首次输出 token 不会超过该时间。
- Mean TPOT (ms):平均每输出一个 token 的时间(毫秒)。
- P99 TPOT (ms):99% 的情况下每输出一个 token 的时间(毫秒),即 99% 的 token 输出间隔不会超过该时间。
- DiT 模型指标
- 画面比例:图像或视频的宽度与高度的比例关系。
- 宽:图像或视频的水平尺寸。
- 高:图像或视频的垂直尺寸。
- 帧率:每秒显示的画面帧数。
- 步数:生成过程中迭代计算的步骤数量。
- 视频时长:视频从开始到结束的时间长度。
- 生成类型:生成内容的类别(如图像、视频等)。
- 公式计算的 tokens:通过公式计算得出的 token 数量。
- E2E Latency:端到端延迟,从输入到输出完整结果的总时间。
- Encoder Latency:编码器处理输入所用的时间。
- DiT Latency:DiT 模型(扩散 Transformer)处理过程的耗时。
- Decoder Latency:解码器生成输出所用的时间。
- Iencoder Latency(i2v 模型):图像编码器处理输入图像的耗时。
- 在任务详情页面,你可以对任务执行以下管理操作。执行 停止 或 删除 操作时,系统会弹出对话框要求二次确认。
- 停止:对于正在运行的任务,单击 停止 按钮可提前终止。
- 删除:对于已完成或已停止的任务,单击 删除 按钮可将其从列表中移除。
- 复制:单击 复制 按钮,系统将跳转到创建任务页面,并自动填入当前任务的所有配置参数,方便你快速创建相似的测试任务。
- 详情页面还提供以下快捷链接,助你进行深度分析:
- 查看资源用量:单击此按钮将跳转至该服务对应的资源监控页面。
- 查看完整压测性能表现:单击此按钮将跳转至该服务的推理性能监控页面。