以管理者视角查看评测报告、导出结果数据。
人工评测任务页面,切换至 我创建的 tab, 点击任务列表页中的 查看评测报告 按钮,打开在线评测报告
关键指标说明:
基本信息
评测任务名称:评测任务的名称
评测报告生成时间:评测报告实际生成的时间
评测任务PM:评测任务的PM人名的列表
评测量级:评测任务数据集中的总题目数量
核心结论
优势占比
计算口径(分数为所有有标注结果的GSB分数):优势占比=(2\*2分个数+1\*1分个数+0\*0分个数-1\*负1分个数-2\*负2分个数)/2/评测题数
指标格式:转化为百分比
GSB分数:分别展示有标注结果,每个分数的题目个数。无论题目处在标注过程中的什么状态
新模型
满分数量:有用性/安全性/真实性等配置的分数均为最高分的数量
满分比例:新模型满分数量/有标注结果的题目数量
旧模型
满分数量:有用性/安全性/真实性等配置的分数均为最高分的数量
满分比例:旧模型满分数量/有标注结果的题目数量
Prompt分类结论
一级能力分类表格
能力分类:数据集中上传的一级能力分类去重后的列表(如果数据集中上传的内容为空,则没有"Prompt分类结论"这一类的统计)
优势占比/GSB显著性:某一级能力分类下的优势占比(优势占比口径同上)
新模型-满分数量:某一级能力分类下,新模型有用性/安全性/真实性等配置的分数均为最高分的数量
新模型-满分比例:某一级能力分类下,新模型满分数量/有标注结果的题目数量
旧模型-满分数量:某一级能力分类下,旧模型有用性/安全性/真实性等配置的分数均为最高分的数量
旧模型-满分比例:某一级能力分类下,旧模型满分数量/有标注结果的题目数量
二级能力分类表格
能力分类:数据集中上传的一级+二级能力分类去重后的列表(如果数据集中上传的内容为空,则没有"Prompt分类结论"这一类的统计)
优势占比/GSB显著性:某二级能力分类下的优势占比(优势占比口径同上)
新模型-满分数量:某一级+二级能力分类下,新模型有用性/安全性/真实性等配置的分数均为最高分的数量
新模型-满分比例:某一级+二级能力分类下,新模型满分数量/有标注结果的题目数量
旧模型-满分数量:某一级+二级能力分类下,旧模型有用性/安全性/真实性等配置的分数均为最高分的数量
旧模型-满分比例:某一级+二级能力分类下,旧模型满分数量/有标注结果的题目数量
各维度分数统计
划分维度:按照配置的维度"有用性","真实性","安全性"等
新模型-分数统计
均分:有标注结果的题目,新模型的GSB平均分
2分/1分/0分个数:有标注结果的题目,新模型的GSB分别的分数
旧模型-分数统计
均分:有标注结果的题目,旧模型的GSB平均分
2分/1分/0分个数:有标注结果的题目,新模型的GSB分别的分数
diff****问题类型
问题类型:任务配置中的diff问题类型(如果没有配置,则没有"自身问题类型"一类的统计)
优势占比:已有标注结果的题目,在某问题类型下的优势占比(优势占比的指标口径同上)
点击任务的 数据详情 标签页,查看任务中标注试题的状态。
点击 任务统计 标签页,查看任务中标注员维度的作业统计,点击左上角 数据导出 按钮,可以导出页面数据。
在结果导出标签页,选择数据范围、数据格式,点击左上角 导出数据 按钮,会生成一条标注结果导出记录,点击 下载 按钮,下载标注结果为csv文件