You need to enable JavaScript to run this app.
文档中心
增长分析(私有化)

增长分析(私有化)

复制全文
下载 pdf
评测工具
管理评测实验
复制全文
下载 pdf
管理评测实验

实验是指通过组合评测数据集、评测对象、若干评估器三元组,执行评测动作得到实验结果的过程。通过分析实验结果,可以获得有助于业务决策的信息。本文介绍如何创建和启动评测实验。

前提条件

模块

是否必须

说明

评测集

完成评测实验必须准备评测集,具体操作请参见构建评测集并添加数据

Agent

可选择在实验内评测指定 Agent。如果不选择 Agent,则会评测评测集,适用于评测集已包含 Agent 实际输出的评测场景。
如需评测 Agent,则需添加 Agent,具体操作请参见添加 Agent

评估器

可选择在实验内添加评估器进行评估。如果不添加评估器,则实验仅获 Agent 实际输出,适用于人工标注的评测场景。
如需添加评估器,则需创建评估器,具体操作请参见创建评估器

新建实验
  1. 登录 Agent 运营分析平台。
  2. 在左侧选择业务空间,并进入评测工具 > 实验评测页面。
  3. 在页面右上角,单击新建实验,并完成以下配置。
    1. 配置基础信息,并单击下一步:评测集
      • 名称:自定义名称,标识当前实验。
      • 描述:自定义描述,可填写当前实验的用途、限制等信息。
      • 最大并发执行条数:选填,默认为 5 条。评测任务支持并发执行评测集中的条目,但受限于评测对象的并发度和调用评测方法的模型 TPM 限制。这里设置理想的最大执行条数,最多支持 20 条。
    2. 配置评测集,并单击下一步:评测对象
      选择指定的评测集版本,选择后将展示该评测集的描述信息、列名称以及数据总量。在页面右上角单击查看详情,可跳转查看评测集详情。
      Image
    3. (可选)配置评测对象,并单击下一步:评估器

      说明

      如果您的评测集列参数中(如 actual_output)已包含 Agent 实际输出的评测内容,可以在页面底部单击跳过,直接跳过本步骤。

      • 类型:选择 Agent
      • Agent:选择需要评测的 Agent。
      • 字段映射:指定评测对象与评测集的输入参数映射关系,用于评测对象准确获取输入数据。
    4. (可选)配置评估器,并单击确认实验配置

      说明

      您可以在页面底部单击跳过,直接跳过本步骤,评测任务仅获取 Agent 实际输出,适用于人工标注的评测场景。

      1. 单击添加评估器
        评估器支持添加多个,上限 10 个。
      2. 选择评估器以及版本。
        选择后,在 Prompt 详情区域,可查看当前评估器的模型、模型参数、Prompt 信息。
      3. 字段映射区域,配置评估器字段与评测集字段、评测对象实际输出字段的映射关系,用于评测方法准确获取输入进行评估。
        Image
  4. 在信息确认页面,核对实验数据无问题后,单击发起实验
    发起实验后,实验处于进行中状态,您需要等待实验执行完成。
    Image

查看实验结果
  1. 登录 Agent 运营分析平台。
  2. 在左侧选择业务空间,并进入评测工具 > 实验评测页面。
  3. 找到状态为成功的实验,在操作列单击详情
    Image
  4. 在实验详情页,查看实验的基础信息、明细数据以及指标统计。
    Image

查看基础信息

实验基础信息,包括评测集、评估器、评测对象、创建人以及创建时间等信息。
Image

查看明细数据

实验数据明细,支持查看列参数值、评估器打分等数据。在指定数据的操作列单击详情,查看详细信息,包括评测集数据、评估器得分与理由
Image

查看评估器详情

在数据详情页,鼠标悬浮在评估器区域,可跳转查看评估器详情。
Image

人工校准得分

鼠标悬浮在评估器得分区域,可选择人工校准,人工修改评估器的评分与原因。

  • 数据明细列表人工校准入口:
    Image
  • 数据详情页人工校准入口:
    Image

单击人工校准,手动输入评分原因,并单击更新
Image

查看评估器 Trace

支持观测实验内评估器的链路。

  • 数据明细列表评估器 Trace 入口:
    Image
  • 数据详情页评估器 Trace 入口:
    Image

可查看调用树、各Span 的 Run、Metadata 数据。可观测链路介绍,请参见观测数据
Image

查看指标统计

在实验结果详情页,单击指标统计页签,支持查看评估器聚合得分、得分明细的视图。
Image

实验对比

对于使用相同评测集,且已经执行完成的实验,可进行评测结果的数据对比。

  1. 进入指定实验详情页,在页面右上角单击实验对比
    Image
    您也可以在实验列表中批量选择实验进行对比。
    Image
  2. 在评测任务列表中勾选需要对比的任务,并单击发起实验对比
    Image
  3. 查看数据明细指标统计的对比详情。
    在页面右上角,支持切换基准任务、支持继续添加对比任务。
    Image

重试实验

对于状态为失败的实验,支持在操作列单击重试,重新运行实验。
Image

复制实验

在实验列表的操作列,可以选择复制实验,基于当前实验配置快速新建一个实验,并支持在新建过程中修改原有配置。
Image

删除实验

在实验列表的操作列,可以选择删除不再需要的实验。

注意

实验一旦删除无法恢复,请谨慎操作。

Image

导出实验明细
  1. 在实验列表的操作列,选择 ··· > 导出
    Image
  2. 导出实验明细弹窗,选择导出格式(目前支持 CSV),并单击导出
    Image
  3. 成功导出后可查看导出记录,并支持下载文件。
    Image
最近更新时间:2026.04.15 11:19:55
这个页面对您有帮助吗?
有用
有用
无用
无用