You need to enable JavaScript to run this app.
文档中心
增长分析(私有化)

增长分析(私有化)

复制全文
下载 pdf
评测工具
管理评测集
复制全文
下载 pdf
管理评测集

在评测场景中,评测集是一个精心设计的标准化测试数据集,用于系统化地评测 Agent 的性能。评测集通常包含输入样本和预期输出。输入样本作为评估对象的输入数据,预期输出提供了评估基准。在开始执行评测实验前,需要先准备好评测集。本文介绍评测集的限制、设计原则以及操作说明。

评测集介绍

评测集是用于评测评估对象的一组数据。它通常包含输入数据和预期的输出结果,帮助开发者验证评估对象的效果。
对于评测集中通常包含以下列:

  • 输入数据(input):这些是提供给评测对象的标准化测试样本,用于评测 AI Agent 在不同场景下的表现。
  • 预期输出(reference_output):这些是理想的结果,作为评估基准,帮助评估者或评估器对输出做出判断。
  • 实际输出(actual_output):评测对象的实际输出,通常用于线上 Trace 数据回流场景。

评测集限制

设计评测集之前,你需要了解评测集文件的以下限制:

  • 最多可添加 5000 条测试数据,文件大小限制为 200 MB。
  • 最多添加 50 个自定义列。

评测集设计原则

设计评测集的用户问题时,应注意:

  • 确保核心链路通畅:评测集需要覆盖 AI Agent 的各个功能点,尽量模拟真实的用户交互、设计典型对话,以确保 AI Agent 的表现符合产品设计和业务需求。
  • 评估范围全面:评测集应该包含不同难度、不同领域的数据,以便全面评估模型的性能。如果包含多种任务,需要确保各个类别之间的数据量均衡,保证每种任务都有足够的样本数据。
  • 覆盖极端场景和异常输入:尝试通过评测集识别出 AI Agent 响应质量不符合预期的场景,同时也需要模拟异常输入、超限输入、违规输入的情况,判断 AI Agent 在各种场景下是否都可以按照预期执行任务。
  • 确保覆盖异常案例:对于用户反馈不合理的 AI Agent 响应案例,将其添加到测试集中,确保 AI Agent 的新版本已解决这些问题,可以按预期执行任务。

构建评测集并添加数据

步骤一:新建评测集

  1. 登录 Agent 运营分析平台。
  2. 在左侧选择业务空间,并进入评测工具 > 评测集管理页面。
  3. 在页面右上角,单击新建评测集,并完成以下配置。
    Image
    • 名称:必填,自定义名称,用于标识当前评测集。
    • 描述:选填,自定义描述,例如输入评测集用途、限制等信息。
    • 配置列:默认包含 input(输入数据)、reference_output(预期输出),同时支持添加其他自定义列。
      参数配置:
      • 名称:输入列名称。仅支持英文、数字、下划线,且需要以英文字母开头。
      • 数据类型:选择一种数据类型。通过校验数据类型,避免导入数据不匹配的情况,保证评测的数据质量。
      • Required:是否必填。
      • 描述:提供描述信息,帮助评测对象理解这个输入数据。
  4. 单击创建,系统会自动创建一个草稿版的评测集。

步骤二:为评测集添加数据

在评测集详情页,添加评测数据。添加数据时,支持手动添加或本地导入。
Image

  • 手动添加
    选择添加数据 > 手动添加后,在添加数据页面,配置第一个数据项,为数据集中的参数设置参数值。

    • 单击添加数据项,可选择添加至多 10 条数据。
    • 添加完成后,在页面底部单击新增

    Image

  • 本地导入
    选择添加数据 > 本地导入后,将本地文件上传至平台。

    • 上传数据:支持以 csv、zip、xlsx、xls 文件形式导入参数值,文件最大支持 200 MB,一次仅可导入一个文件。
    • 导入方式:追加数据(在原有数据基础上继续追加数据)或全量覆盖(删除原有数据替换为新数据)。

步骤三:提交评测集版本

成功添加数据后,评测集处于修改未提交状态,此时需要在列表右侧单击提交新版本
Image
自定义版本号(通常首个版本号为 0.0.1)、版本说明,并单击提交

说明

仅提交新建为正式版本的评测集可以在评测实验中使用。在不同评测阶段,测试集的版本作用也不同:
数据完备阶段:完成测试数据导入后,可提交首个测试版本并关联实验任务,系统将基于该版本进行全量评估。
评估验证阶段:通过实验报告分析当前版本的数据表现,定位待优化数据样本。
优化升级阶段:根据评估结果修正数据集后,提交升级版本并重新关联实验,开启新一轮验证循环。
这种版本机制通过"提交-评估-优化"的递进式循环,确保评测集持续满足评估迭需求。

修改评测集信息
  1. 登录 Agent 运营分析平台。
  2. 在左侧选择业务空间,并进入评测工具 > 评测集管理页面。
  3. 在评测集列表,支持查看评测集的名称、列名称、数据项、最新版本以及更新人等信息,在操作列支持查看详情,或删除评测集。

    注意

    评测集一旦删除无法恢复,请谨慎操作。

    Image
  4. 操作列单击详情,进入评测集详情页面,可修改评测集名称、描述以及列参数等配置信息。

修改评测集名称与描述

在评测集名称右侧单击编辑图标,支持修改评测集名称与描述。
Image

切换评测集数据项视图模式

支持调整紧凑视图、宽松视图。
Image

修改评测集列参数

  1. 在评测集草稿状态下,支持修改评测集的列配置,单击编辑列。
    Image
  2. 编辑列页面,支持添加列、删除列、修改列名称、描述。

    注意

    草稿版本存在数据时,无法修改列的数据类型和是否必填。

    Image

修改评测集数据

在评测集草稿状态下,可修改评测集数据。

说明

草稿版本的评测集数据修改不影响已提交的历史版本。如果历史版本的评测集关联了实验,也可以根据历史版本的实验回溯原版本数据。

  • 新增数据项:在评测集详情页面,单击添加数据
    Image
  • 修改数据项:在评测集详情页面,单击目标数据项操作列下的编辑,然后修改数据并保存。
    Image
  • 删除数据项:在评测集详情页面,单击目标数据项操作列下的删除,删除不再使用的数据。

    注意

    数据一旦删除无法恢复,请谨慎操作。

    Image

管理评测集版本

构建评测集首个版本后,后续对评测集的修改优化均需要重新提交新版本,并设置新的版本号。
Image
历史版本信息可以在列表上方单击版本记录查看。
Image

实验相关操作

在评测集详情页可直接新建实验,并支持查看已关联的评测实验。关于评测实验的详细介绍,请参见管理评测实验
Image

最近更新时间:2026.04.15 11:19:55
这个页面对您有帮助吗?
有用
有用
无用
无用