You need to enable JavaScript to run this app.
文档中心
火山方舟

火山方舟

复制全文
下载 pdf
人工评测
查看评测报告
复制全文
下载 pdf
查看评测报告

以管理者视角查看评测报告、导出结果数据。

1. 查看任务评测报告

人工评测任务页面,切换至 我创建的 tab, 点击任务列表页中的 查看评测报告 按钮,打开在线评测报告



关键指标说明:

  • 基本信息

    • 评测任务名称:评测任务的名称

    • 评测报告生成时间:评测报告实际生成的时间

    • 评测任务PM:评测任务的PM人名的列表

    • 评测量级:评测任务数据集中的总题目数量

  • 核心结论

    • 优势占比

      • 计算口径(分数为所有有标注结果的GSB分数):优势占比=(2\*2分个数+1\*1分个数+0\*0分个数-1\*负1分个数-2\*负2分个数)/2/评测题数

      • 指标格式:转化为百分比

    • GSB分数:分别展示有标注结果,每个分数的题目个数。无论题目处在标注过程中的什么状态

    • 新模型

      • 满分数量:有用性/安全性/真实性等配置的分数均为最高分的数量

      • 满分比例:新模型满分数量/有标注结果的题目数量

    • 旧模型

      • 满分数量:有用性/安全性/真实性等配置的分数均为最高分的数量

      • 满分比例:旧模型满分数量/有标注结果的题目数量

  • Prompt分类结论

一级能力分类表格

  • 能力分类:数据集中上传的一级能力分类去重后的列表(如果数据集中上传的内容为空,则没有"Prompt分类结论"这一类的统计)

  • 优势占比/GSB显著性:某一级能力分类下的优势占比(优势占比口径同上)

  • 新模型-满分数量:某一级能力分类下,新模型有用性/安全性/真实性等配置的分数均为最高分的数量

  • 新模型-满分比例:某一级能力分类下,新模型满分数量/有标注结果的题目数量

  • 旧模型-满分数量:某一级能力分类下,旧模型有用性/安全性/真实性等配置的分数均为最高分的数量

  • 旧模型-满分比例:某一级能力分类下,旧模型满分数量/有标注结果的题目数量

二级能力分类表格

  • 能力分类:数据集中上传的一级+二级能力分类去重后的列表(如果数据集中上传的内容为空,则没有"Prompt分类结论"这一类的统计)

  • 优势占比/GSB显著性:某二级能力分类下的优势占比(优势占比口径同上)

  • 新模型-满分数量:某一级+二级能力分类下,新模型有用性/安全性/真实性等配置的分数均为最高分的数量

  • 新模型-满分比例:某一级+二级能力分类下,新模型满分数量/有标注结果的题目数量

  • 旧模型-满分数量:某一级+二级能力分类下,旧模型有用性/安全性/真实性等配置的分数均为最高分的数量

  • 旧模型-满分比例:某一级+二级能力分类下,旧模型满分数量/有标注结果的题目数量

  • 各维度分数统计

    • 划分维度:按照配置的维度"有用性","真实性","安全性"等

    • 新模型-分数统计

      • 均分:有标注结果的题目,新模型的GSB平均分

      • 2分/1分/0分个数:有标注结果的题目,新模型的GSB分别的分数

    • 旧模型-分数统计

      • 均分:有标注结果的题目,旧模型的GSB平均分

      • 2分/1分/0分个数:有标注结果的题目,新模型的GSB分别的分数

  • diff****问题类型

    • 问题类型:任务配置中的diff问题类型(如果没有配置,则没有"自身问题类型"一类的统计)

    • 优势占比:已有标注结果的题目,在某问题类型下的优势占比(优势占比的指标口径同上)

2. 查看任务详情

点击任务的 数据详情 标签页,查看任务中标注试题的状态。

3. 查看任务统计

点击 任务统计 标签页,查看任务中标注员维度的作业统计,点击左上角 数据导出 按钮,可以导出页面数据。

4. 导出标注结果数据

在结果导出标签页,选择数据范围、数据格式,点击左上角 导出数据 按钮,会生成一条标注结果导出记录,点击 下载 按钮,下载标注结果为csv文件


最近更新时间:2024.05.15 01:07:49
这个页面对您有帮助吗?
有用
有用
无用
无用