实验是指通过组合评测数据集、评测对象、若干评估器三元组,执行评测动作得到实验结果的过程。通过分析实验结果,可以获得有助于业务决策的信息。本文介绍如何创建和启动评测实验。
前提条件
模块 | 是否必须 | 说明 |
|---|
评测集 | 是 | 完成评测实验必须准备评测集,具体操作请参见构建评测集并添加数据。 |
Agent | 否 | 可选择在实验内评测指定 Agent。如果不选择 Agent,则会评测评测集,适用于评测集已包含 Agent 实际输出的评测场景。
如需评测 Agent,则需添加 Agent,具体操作请参见添加 Agent。 |
评估器 | 否 | 可选择在实验内添加评估器进行评估。如果不添加评估器,则实验仅获 Agent 实际输出,适用于人工标注的评测场景。
如需添加评估器,则需创建评估器,具体操作请参见创建评估器。 |
新建实验
- 登录 Agent 运营分析平台。
- 在左侧选择业务空间,并进入评测工具 > 实验评测页面。
- 在页面右上角,单击新建实验,并完成以下配置。
- 配置基础信息,并单击下一步:评测集。
- 名称:自定义名称,标识当前实验。
- 描述:自定义描述,可填写当前实验的用途、限制等信息。
- 最大并发执行条数:选填,默认为 5 条。评测任务支持并发执行评测集中的条目,但受限于评测对象的并发度和调用评测方法的模型 TPM 限制。这里设置理想的最大执行条数,最多支持 20 条。
- 配置评测集,并单击下一步:评测对象。
选择指定的评测集和版本,选择后将展示该评测集的描述信息、列名称以及数据总量。在页面右上角单击查看详情,可跳转查看评测集详情。

- (可选)配置评测对象,并单击下一步:评估器。
说明
如果您的评测集列参数中(如 actual_output)已包含 Agent 实际输出的评测内容,可以在页面底部单击跳过,直接跳过本步骤。
- 类型:选择 Agent。
- Agent:选择需要评测的 Agent。
- 字段映射:指定评测对象与评测集的输入参数映射关系,用于评测对象准确获取输入数据。
- (可选)配置评估器,并单击确认实验配置。
说明
您可以在页面底部单击跳过,直接跳过本步骤,评测任务仅获取 Agent 实际输出,适用于人工标注的评测场景。
- 单击添加评估器。
评估器支持添加多个,上限 10 个。 - 选择评估器以及版本。
选择后,在 Prompt 详情区域,可查看当前评估器的模型、模型参数、Prompt 信息。 - 在字段映射区域,配置评估器字段与评测集字段、评测对象实际输出字段的映射关系,用于评测方法准确获取输入进行评估。

- 在信息确认页面,核对实验数据无问题后,单击发起实验。
发起实验后,实验处于进行中状态,您需要等待实验执行完成。

查看实验结果
- 登录 Agent 运营分析平台。
- 在左侧选择业务空间,并进入评测工具 > 实验评测页面。
- 找到状态为成功的实验,在操作列单击详情。

- 在实验详情页,查看实验的基础信息、明细数据以及指标统计。

查看基础信息
实验基础信息,包括评测集、评估器、评测对象、创建人以及创建时间等信息。

查看明细数据
实验数据明细,支持查看列参数值、评估器打分等数据。在指定数据的操作列单击详情,查看详细信息,包括评测集数据、评估器得分与理由

查看评估器详情
在数据详情页,鼠标悬浮在评估器区域,可跳转查看评估器详情。

人工校准得分
鼠标悬浮在评估器得分区域,可选择人工校准,人工修改评估器的评分与原因。
- 数据明细列表人工校准入口:

- 数据详情页人工校准入口:

单击人工校准,手动输入评分与原因,并单击更新。

查看评估器 Trace
支持观测实验内评估器的链路。
- 数据明细列表评估器 Trace 入口:

- 数据详情页评估器 Trace 入口:

可查看调用树、各Span 的 Run、Metadata 数据。可观测链路介绍,请参见观测数据。

查看指标统计
在实验结果详情页,单击指标统计页签,支持查看评估器聚合得分、得分明细的视图。

实验对比
对于使用相同评测集,且已经执行完成的实验,可进行评测结果的数据对比。
- 进入指定实验详情页,在页面右上角单击实验对比。

您也可以在实验列表中批量选择实验进行对比。

- 在评测任务列表中勾选需要对比的任务,并单击发起实验对比。

- 查看数据明细或指标统计的对比详情。
在页面右上角,支持切换基准任务、支持继续添加对比任务。

重试实验
对于状态为失败的实验,支持在操作列单击重试,重新运行实验。

复制实验
在实验列表的操作列,可以选择复制实验,基于当前实验配置快速新建一个实验,并支持在新建过程中修改原有配置。

删除实验
在实验列表的操作列,可以选择删除不再需要的实验。

导出实验明细
- 在实验列表的操作列,选择 ··· > 导出。

- 在导出实验明细弹窗,选择导出格式(目前支持 CSV),并单击导出。

- 成功导出后可查看导出记录,并支持下载文件。
