最近更新时间:2023.12.18 14:59:31
首次发布时间:2023.09.22 14:50:40
方舟平台汇集了时下主流的基础大模型,同时也支持用户基于这些先进模型训练出更加符合自身场景的精调模型。为帮助用户能更加快速高效的选择到一款合适的模型,或准确评估基于自身数据精调出的模型效果,方舟设计了一套评测体系,帮助用户全方位量化模型各个维度能力。该评测体系具备以下特性:
便捷性:以自动测试为主导,方便用户一键评测,快速看到结果。
权威性:集成了业界高度认可的公开数据集,以便能和各大公开榜单中的不同模型进行对比;同时辅以方舟平台自身积累的非公开数据集,降低了完全公开的数据可能存在的刷榜影响,使评测结果更具可信度。
灵活性:模型评测按不同能力维度进行划分,用户可以自由选择,生成符合自身场景需求的评测结果。
评测维度
我们从人的基本能力出发,将评测数据组合出不同维度,以便或全面或针对性考察模型能力。
360评测 - 横向进行跨学科、跨能力维度的评测,用于快速衡量模型是否具有广泛的世界知识和各类问题解决能力。
基础能力评测 - 为更专业解决某种场景的问题,模型需要在某些类别中体现更加突出的能力。因此方舟还提供不同侧重的,基于能力维度的模型评测选项。
语言创作 - 理解与生成文本的能力,与人类语言考试的读、写对应
推理数学 - 逻辑推理与数学计算,及延伸的对复杂规则的学习能力
知识能力 - 记忆与理解各行各业知识,如常识、生活、社会文化等
其他能力维度逐步拓展中,以便支持更多场景的模型评测需求。敬请期待。
评测数据
评测类型 | 能力维度 | 评测数据 |
---|---|---|
预置评测 | 360评测 |
|
基础能力评测 |
| |
垂直能力评测 | 方舟在持续进行评测数据的构建,近期将提供专项能力相关的评测。敬请期待。 | |
自定义数据评测 | 可选择以上能力或创建新维度 | 用户可自行上传评测数据,通过方舟预置的评测方法进行效果评测。评测数据准备方式可参考评测数据集格式说明 |
评测得分
方舟预置的评测数据集,已经根据内容匹配到对应的能力维度。
用户也可自行上传数据,选择或填写能力维度后,平台按能力维度和预置评测数据集合并统计。
评测指标
各数据集根据自身特性不同需要相应的评估方法,主要依据评测集中提供的标准答案的类型选择相应的评测指标。方舟支持以下几种指标:
评估指标 | 适用评测题目类型 | 预置数据集举例 |
---|---|---|
正确率(Accuracy) | 常用于判断题(是/否)以及选择题(ABCD),这类问题的数据集占比最大,有MMLU, 高考数据集等。 | MMLU, 高考, LSAT, Hellaswag, BoolQ, AQUA-RAT, WinoGrande, BBH |
匹配率(Exact Match) | 常用于问答题以及阅读理解任务,判断模型输出的文本与标准答案是否一致。这类数据集主要包括Natural Questions, TriviaQA等。 | GSM8K, Natural Questions, TriviaQA |
pass@k | 常用于代码生成的任务,数据集主要包括Humaneval,MBPP等。 | HumanEval, MBPP |