查看评测报告--火山方舟-火山引擎

文档中心

火山方舟

人工评测

查看评测报告

以管理者视角查看评测报告、导出结果数据。

1. 查看任务评测报告

人工评测任务页面，切换至 我创建的 tab, 点击任务列表页中的 查看评测报告 按钮，打开在线评测报告

关键指标说明：

基本信息
- 评测任务名称：评测任务的名称
- 评测报告生成时间：评测报告实际生成的时间
- 评测任务PM：评测任务的PM人名的列表
- 评测量级：评测任务数据集中的总题目数量
核心结论
- 优势占比
  - 计算口径(分数为所有有标注结果的GSB分数)：优势占比=(2\*2分个数+1\*1分个数+0\*0分个数-1\*负1分个数-2\*负2分个数)/2/评测题数
  - 指标格式：转化为百分比
- GSB分数：分别展示有标注结果，每个分数的题目个数。无论题目处在标注过程中的什么状态
- 新模型
  - 满分数量：有用性/安全性/真实性等配置的分数均为最高分的数量
  - 满分比例：新模型满分数量/有标注结果的题目数量
- 旧模型
  - 满分数量：有用性/安全性/真实性等配置的分数均为最高分的数量
  - 满分比例：旧模型满分数量/有标注结果的题目数量
Prompt分类结论

一级能力分类表格

二级能力分类表格

能力分类：数据集中上传的一级+二级能力分类去重后的列表(如果数据集中上传的内容为空，则没有"Prompt分类结论"这一类的统计)
优势占比/GSB显著性：某二级能力分类下的优势占比(优势占比口径同上)
新模型-满分数量：某一级+二级能力分类下，新模型有用性/安全性/真实性等配置的分数均为最高分的数量
新模型-满分比例：某一级+二级能力分类下，新模型满分数量/有标注结果的题目数量
旧模型-满分数量：某一级+二级能力分类下，旧模型有用性/安全性/真实性等配置的分数均为最高分的数量
旧模型-满分比例：某一级+二级能力分类下，旧模型满分数量/有标注结果的题目数量
各维度分数统计
- 划分维度：按照配置的维度"有用性"，"真实性"，"安全性"等
- 新模型-分数统计
  - 均分：有标注结果的题目，新模型的GSB平均分
  - 2分/1分/0分个数：有标注结果的题目，新模型的GSB分别的分数
- 旧模型-分数统计
  - 均分：有标注结果的题目，旧模型的GSB平均分
  - 2分/1分/0分个数：有标注结果的题目，新模型的GSB分别的分数
diff****问题类型
- 问题类型：任务配置中的diff问题类型(如果没有配置，则没有"自身问题类型"一类的统计)
- 优势占比：已有标注结果的题目，在某问题类型下的优势占比(优势占比的指标口径同上)

2. 查看任务详情

点击任务的 数据详情 标签页，查看任务中标注试题的状态。

3. 查看任务统计

点击 任务统计 标签页，查看任务中标注员维度的作业统计，点击左上角 数据导出 按钮，可以导出页面数据。

4. 导出标注结果数据

在结果导出标签页，选择数据范围、数据格式，点击左上角 导出数据 按钮，会生成一条标注结果导出记录，点击下载按钮，下载标注结果为csv文件

最近更新时间：2024.05.15 01:07:49

这个页面对您有帮助吗？

有用

无用