在评测场景中,评测集是一个精心设计的标准化测试数据集,用于系统化地评测 Agent 的性能。评测集通常包含输入样本和预期输出。输入样本作为评估对象的输入数据,预期输出提供了评估基准。在开始执行评测实验前,需要先准备好评测集。本文介绍评测集的限制、设计原则以及操作说明。
评测集介绍
评测集是用于评测评估对象的一组数据。它通常包含输入数据和预期的输出结果,帮助开发者验证评估对象的效果。
对于评测集中通常包含以下列:
- 输入数据(input):这些是提供给评测对象的标准化测试样本,用于评测 AI Agent 在不同场景下的表现。
- 预期输出(reference_output):这些是理想的结果,作为评估基准,帮助评估者或评估器对输出做出判断。
- 实际输出(actual_output):评测对象的实际输出,通常用于线上 Trace 数据回流场景。
评测集限制
设计评测集之前,你需要了解评测集文件的以下限制:
- 最多可添加 5000 条测试数据,文件大小限制为 200 MB。
- 最多添加 50 个自定义列。
评测集设计原则
设计评测集的用户问题时,应注意:
- 确保核心链路通畅:评测集需要覆盖 AI Agent 的各个功能点,尽量模拟真实的用户交互、设计典型对话,以确保 AI Agent 的表现符合产品设计和业务需求。
- 评估范围全面:评测集应该包含不同难度、不同领域的数据,以便全面评估模型的性能。如果包含多种任务,需要确保各个类别之间的数据量均衡,保证每种任务都有足够的样本数据。
- 覆盖极端场景和异常输入:尝试通过评测集识别出 AI Agent 响应质量不符合预期的场景,同时也需要模拟异常输入、超限输入、违规输入的情况,判断 AI Agent 在各种场景下是否都可以按照预期执行任务。
- 确保覆盖异常案例:对于用户反馈不合理的 AI Agent 响应案例,将其添加到测试集中,确保 AI Agent 的新版本已解决这些问题,可以按预期执行任务。
构建评测集并添加数据
步骤一:新建评测集
- 登录 Agent 运营分析平台。
- 在左侧选择业务空间,并进入评测工具 > 评测集管理页面。
- 在页面右上角,单击新建评测集,并完成以下配置。

- 名称:必填,自定义名称,用于标识当前评测集。
- 描述:选填,自定义描述,例如输入评测集用途、限制等信息。
- 配置列:默认包含 input(输入数据)、reference_output(预期输出),同时支持添加其他自定义列。
参数配置:
- 名称:输入列名称。仅支持英文、数字、下划线,且需要以英文字母开头。
- 数据类型:选择一种数据类型。通过校验数据类型,避免导入数据不匹配的情况,保证评测的数据质量。
- Required:是否必填。
- 描述:提供描述信息,帮助评测对象理解这个输入数据。
- 单击创建,系统会自动创建一个草稿版的评测集。
步骤二:为评测集添加数据
在评测集详情页,添加评测数据。添加数据时,支持手动添加或本地导入。

步骤三:提交评测集版本
成功添加数据后,评测集处于修改未提交状态,此时需要在列表右侧单击提交新版本。

自定义版本号(通常首个版本号为 0.0.1)、版本说明,并单击提交。
说明
仅提交新建为正式版本的评测集可以在评测实验中使用。在不同评测阶段,测试集的版本作用也不同:
数据完备阶段:完成测试数据导入后,可提交首个测试版本并关联实验任务,系统将基于该版本进行全量评估。
评估验证阶段:通过实验报告分析当前版本的数据表现,定位待优化数据样本。
优化升级阶段:根据评估结果修正数据集后,提交升级版本并重新关联实验,开启新一轮验证循环。
这种版本机制通过"提交-评估-优化"的递进式循环,确保评测集持续满足评估迭需求。
修改评测集信息
- 登录 Agent 运营分析平台。
- 在左侧选择业务空间,并进入评测工具 > 评测集管理页面。
- 在评测集列表,支持查看评测集的名称、列名称、数据项、最新版本以及更新人等信息,在操作列支持查看详情,或删除评测集。

- 在操作列单击详情,进入评测集详情页面,可修改评测集名称、描述以及列参数等配置信息。
修改评测集名称与描述
在评测集名称右侧单击编辑图标,支持修改评测集名称与描述。

切换评测集数据项视图模式
支持调整紧凑视图、宽松视图。

修改评测集列参数
- 在评测集草稿状态下,支持修改评测集的列配置,单击编辑列。

- 在编辑列页面,支持添加列、删除列、修改列名称、描述。
注意
草稿版本存在数据时,无法修改列的数据类型和是否必填。

修改评测集数据
在评测集草稿状态下,可修改评测集数据。
说明
草稿版本的评测集数据修改不影响已提交的历史版本。如果历史版本的评测集关联了实验,也可以根据历史版本的实验回溯原版本数据。
- 新增数据项:在评测集详情页面,单击添加数据。

- 修改数据项:在评测集详情页面,单击目标数据项操作列下的编辑,然后修改数据并保存。

- 删除数据项:在评测集详情页面,单击目标数据项操作列下的删除,删除不再使用的数据。

管理评测集版本
构建评测集首个版本后,后续对评测集的修改优化均需要重新提交新版本,并设置新的版本号。

历史版本信息可以在列表上方单击版本记录查看。

实验相关操作
在评测集详情页可直接新建实验,并支持查看已关联的评测实验。关于评测实验的详细介绍,请参见管理评测实验。
