You need to enable JavaScript to run this app.
导航

查看评测报告

最近更新时间2023.09.27 12:17:01

首次发布时间2023.09.27 12:17:01

以管理者视角查看评测报告、导出结果数据。

  1. 查看任务评测报告

人工评测任务页面,切换至 我创建的 tab, 点击任务列表页中的 查看评测报告 按钮,打开在线评测报告


关键指标说明:

  • 基本信息

    • 评测任务名称:评测任务的名称

    • 评测报告生成时间:评测报告实际生成的时间

    • 评测任务PM:评测任务的PM人名的列表

    • 评测量级:评测任务数据集中的总题目数量

  • 核心结论

    • 优势占比

      • 计算口径(分数为所有有标注结果的GSB分数):优势占比=(2*2分个数+1*1分个数+0*0分个数-1*负1分个数-2*负2分个数)/2/评测题数

      • 指标格式:转化为百分比

    • GSB分数:分别展示有标注结果,每个分数的题目个数。无论题目处在标注过程中的什么状态

    • 新模型

      • 满分数量:有用性/安全性/真实性等配置的分数均为最高分的数量

      • 满分比例:新模型满分数量/有标注结果的题目数量

    • 旧模型

      • 满分数量:有用性/安全性/真实性等配置的分数均为最高分的数量

      • 满分比例:旧模型满分数量/有标注结果的题目数量

  • Prompt分类结论

    一级能力分类表格

    • 能力分类:数据集中上传的一级能力分类去重后的列表(如果数据集中上传的内容为空,则没有"Prompt分类结论"这一类的统计)

    • 优势占比/GSB显著性:某一级能力分类下的优势占比(优势占比口径同上)

    • 新模型-满分数量:某一级能力分类下,新模型有用性/安全性/真实性等配置的分数均为最高分的数量

    • 新模型-满分比例:某一级能力分类下,新模型满分数量/有标注结果的题目数量

    • 旧模型-满分数量:某一级能力分类下,旧模型有用性/安全性/真实性等配置的分数均为最高分的数量

    • 旧模型-满分比例:某一级能力分类下,旧模型满分数量/有标注结果的题目数量

    二级能力分类表格

    • 能力分类:数据集中上传的一级+二级能力分类去重后的列表(如果数据集中上传的内容为空,则没有"Prompt分类结论"这一类的统计)

    • 优势占比/GSB显著性:某二级能力分类下的优势占比(优势占比口径同上)

    • 新模型-满分数量:某一级+二级能力分类下,新模型有用性/安全性/真实性等配置的分数均为最高分的数量

    • 新模型-满分比例:某一级+二级能力分类下,新模型满分数量/有标注结果的题目数量

    • 旧模型-满分数量:某一级+二级能力分类下,旧模型有用性/安全性/真实性等配置的分数均为最高分的数量

    • 旧模型-满分比例:某一级+二级能力分类下,旧模型满分数量/有标注结果的题目数量

  • 各维度分数统计

    • 划分维度:按照配置的维度"有用性","真实性","安全性"等

    • 新模型-分数统计

      • 均分:有标注结果的题目,新模型的GSB平均分

      • 2分/1分/0分个数:有标注结果的题目,新模型的GSB分别的分数

    • 旧模型-分数统计

      • 均分:有标注结果的题目,旧模型的GSB平均分

      • 2分/1分/0分个数:有标注结果的题目,新模型的GSB分别的分数

  • diff问题类型

    • 问题类型:任务配置中的diff问题类型(如果没有配置,则没有"自身问题类型"一类的统计)

    • 优势占比:已有标注结果的题目,在某问题类型下的优势占比(优势占比的指标口径同上)

  1. 查看任务详情

点击任务的 数据详情 标签页,查看任务中标注试题的状态。

  1. 查看任务统计

点击 任务统计 标签页,查看任务中标注员维度的作业统计,点击左上角 数据导出 按钮,可以导出页面数据。

  1. 导出标注结果数据

在结果导出标签页,选择数据范围、数据格式,点击左上角 导出数据 按钮,会生成一条标注结果导出记录,点击 下载 按钮,下载标注结果为csv文件