平台提供丰富的预置数据集,覆盖多个维度与领域,帮助用户高效全面评估模型性能。
能力维度 | 评测数据 | |
---|---|---|
综合能力 |
| |
基础能力 | 推理数学 |
|
语言创作 |
| |
知识能力 |
|
评测得分包括综合评分与能力维度评分。其中,综合评分是模型在所有能力维度评分的平均值,能力维度评分则是各能力维度下所有数据集评测得分的平均值。
平台预设了不同数据集的评测方式,无需用户操作。各数据集根据自身特性,采用不同的评测方式,主要依据评测集中提供的参考答案的类型选择相应的评测指标。例如:
评估指标 | 适用评测题目类型 | 预置数据集举例 |
---|---|---|
正确率(Accuracy) | 常用于判断题(是/否)以及选择题(ABCD),这类问题的数据集占比最大,有MMLU, 高考数据集等。 | MMLU, 高考, LSAT, Hellaswag, BoolQ, AQUA-RAT, WinoGrande, BBH |
匹配率(Exact Match) | 常用于问答题以及阅读理解任务,判断模型输出的文本与标准答案是否一致。这类数据集主要包括Natural Questions, TriviaQA等。 | GSM8K, Natural Questions, TriviaQA |
用户数据集格式支持 .jsonl, .xlsx, .xls。每次评测最多上传10个文件,每个文件最多1000行。
字段 | 类型 | 备注 |
---|---|---|
session_id | int | 对话标识符 |
endpoint_id | str | 推理接入点ID |
system_prompt/system | str | 系统提示 |
query/prompt | str | 用户提示 |
reference_response/answer | str | 参考回复 |
response | str | 模型回答 |
analysis | str | ai裁判员回答 |
score | float | 分数 |
parameters | dict | 推理参数,包括logprobs、top_logprobs、frequency_penalty、temperature、top_p、max_tokens、stop等。具体参考请求参数。 |
usage | dict | tokens使用信息,包括prompt_tokens、completion_tokens、total_tokens等,具体参考请求参数Usage。 |
error | str | 推理无法完成时,将展示error信息 |
每一行代表一次单轮对话,session_id列可选择不填, 但不能重复。
若需要平台进行推理和评测,则reference_response必填。
字段 | 类型 | 是否必填 | 备注 |
---|---|---|---|
session_id | int | 否。可不填,但不能填写重复值 | 对话标识符 |
system_prompt | str | 否 | 系统提示 |
query | str | 是 | 用户提示 |
reference_response | str | 否。若评测方式选择推理+自动评测,则必填 | 参考回复 |
parameters | dict | 否。支持对每次对话设置不同推理参数。若用户在评测集与方舟控制台中都设置了推理参数,以评测集为准。 | 推理参数,包括logprobs、top_logprobs、frequency_penalty、temperature、top_p、max_tokens、stop等。具体参考请求参数。 |
选择「推理+自动评测」的示例:
session_id | system_prompt | query | reference_response | parameters | response |
---|---|---|---|---|---|
0 | 你是一名精通各大中餐菜系的中餐传奇大厨 | 家里有鸡蛋、西红柿 | 那可以做一道经典的西红柿炒鸡蛋呀。以下是做法: | {'logprobs': False, 'top_logprobs': 10, 'frequency_penalty': 0.0, 'temperature': 1.0, 'top_p': 0.7, 'max_tokens': 4096, 'stop': []} | (留空,待被测模型推理) |
1 | 你是一个精通中国历史和文化的段子手,擅长通过幽默的表达方式让人发笑。 | 程序员写了个bug,把公司数据库给误删除了 | 哎呀,这程序员可真是“威力巨大”啊!就像一个不小心的武林高手,一招“数据库消失术”就把公司的数据库给灭了。这大概就像是厨师做菜,本来想加点盐,结果把整锅菜都给倒掉了一样。估计公司老板当时脸都绿了,那表情可能就像吃了苦瓜还被人踩了一脚。这程序员啊,估计现在在公司里走路都得低着头,心里想着:“我这不是写代码,我这是给公司制造‘灾难大片’呢。” | {'logprobs': False, 'top_logprobs': 10, 'frequency_penalty': 0.0, 'temperature': 1.0, 'top_p': 0.7, 'max_tokens': 4096, 'stop': []} | (留空,待被测模型推理) |
统一session_id代表一次多轮对话,对话顺序与表格从上至下顺序一致
字段 | 类型 | 是否必填 | 备注 |
---|---|---|---|
session_id | int | 是。同一session_id代表一次多轮对话。 | 对话标识符 |
system_prompt | str | 否。但是相同session_id的system_prompt必须相同 | 系统提示 |
query | str | 是 | 用户提示 |
response | str | 若评测方式为推理+自动评测,则一次多轮对话(同一session_id)中,最后一行样本只填reference_response,response不填,其余样本reference_response不填,response选填(填写则代表这次多轮对话有上文)。 | 模型回复 |
reference_response | str | 参考回复 | |
parameters | dict | 否。支持对每次对话设置不同推理参数。若用户在评测集与方舟控制台中都设置了推理参数,以评测集为准。 | 推理参数,包括logprobs、top_logprobs、frequency_penalty、temperature、top_p、max_tokens、stop等。具体参考请求参数。 |
选择「推理+自动评测」的示例:
session_id | system_prompt | query | reference_response | parameters | response |
---|---|---|---|---|---|
0 | 你是一名精通各大中餐菜系的中餐传奇大厨 | 家里有鸡蛋、西红柿 | 那可以做一道经典的西红柿炒鸡蛋呀。以下是做法: | ||
0 | 你是一名精通各大中餐菜系的中餐传奇大厨 | 家里还有排骨 | 那还可以做一道西红柿炖排骨。 | ||
0 | 你是一名精通各大中餐菜系的中餐传奇大厨 | 还有一条鱼 | 那还可以做一到红烧鱼。准备食材和调料:鲜鱼(如鲤鱼、草鱼等)1 条、葱 2 根、姜 1 块、蒜 3 瓣、干辣椒 3 个、料酒 1 勺、生抽 2 勺、老抽 1 勺、白糖 1 勺、盐适量、鸡精适量、食用油适量。 | {'logprobs': False, 'top_logprobs': 10, 'frequency_penalty': 0.0, 'temperature': 1.0, 'top_p': 0.7, 'max_tokens': 4096, 'stop': []} | (留空,待被测模型推理) |
1 | 你是一个精通中国历史和文化的段子手,擅长通过幽默的表达方式让人发笑。 | 程序员写了个bug,把公司数据库给误删除了 | 哎呀,这程序员可真是“威力巨大”啊!就像一个不小心的武林高手,一招“数据库消失术”就把公司的数据库给灭了。这大概就像是厨师做菜,本来想加点盐,结果把整锅菜都给倒掉了一样。估计公司老板当时脸都绿了,那表情可能就像吃了苦瓜还被人踩了一脚。这程序员啊,估计现在在公司里走路都得低着头,心里想着:“我这不是写代码,我这是给公司制造‘灾难大片’呢。” | ||
1 | 你是一个精通中国历史和文化的段子手,擅长通过幽默的表达方式让人发笑。 | 996福报 | 老板在大会上激情演讲:“996 是福报啊,你们想想,别的公司下班早,员工回家就知道打游戏、刷剧、躺平浪费时间。咱们公司实行 996,大家在公司能不断成长,多学习知识,多积累经验,这多好!” | {'logprobs': False, 'top_logprobs': 10, 'frequency_penalty': 0.0, 'temperature': 1.0, 'top_p': 0.7, 'max_tokens': 4096, 'stop': []} | (留空,待被测模型推理) |
每一行代表一次单轮对话
字段 | 类型 | 是否必填 | 备注 |
---|---|---|---|
system | str | 否 | 系统提示 |
prompt | str | 是 | 用户提示 |
answer | str | 否。若评测方式选择推理+自动评测,则必填 | 参考回复 |
parameters | dict | 否。支持对每次对话设置不同推理参数。若用户在评测集与方舟控制台中都设置了推理参数,以评测集为准。 | 推理参数,包括logprobs、top_logprobs、frequency_penalty、temperature、top_p、max_tokens、stop等。具体参考请求参数 |
选择「推理+自动评测」的示例:
# 输入数据集 {"system":"请完成下面的计算题","prompt":"0+1","answer":"1","parameters": {"logprobs": false, "top_logprobs": 10, "frequency_penalty": 0.0, "temperature": 1.0, "top_p": 0.7, "max_tokens": 4096, "stop": []}} {"system":"请完成下面的计算题","prompt":"0+2","answer":"2","parameters": {"logprobs": false, "top_logprobs": 10, "frequency_penalty": 0.0, "temperature": 1.0, "top_p": 0.7, "max_tokens": 4096, "stop": []}} # 输出数据集(参数解释详见下面Jsonl多轮对话的参数说明) {"session_id": 0, "messages": [{"role": "system", "content": "请完成下面的计算题"}, {"role": "user", "content": "0+1"}, {"role": "assistant", "reference_response": "1", "responses": [{"parameters": {"logprobs": false, "top_logprobs": 10, "frequency_penalty": 0.0, "temperature": 1.0, "top_p": 0.7, "max_tokens": 4096, "stop": []}, "usage": {"prompt_tokens": 13, "completion_tokens": 577, "total_tokens": 590}, "content": "\n\n0 + 1 的计算过程如下:\n\n1. **理解数字含义**: \n - 0 表示“没有数量”。\n - 1 表示“一个单位”。\n\n2. **加法定义**: \n 加法是将两个数合并,得到它们的总和。任何数加 0 都等于它本身(加法单位元性质)。\n\n3. **应用交换律**: \n 根据交换律,\\(0 + 1 = 1 + 0\\),而 \\(1 + 0 = 1\\),因此 \\(0 + 1 = 1\\)。\n\n4. **实际举例验证**: \n - 如果有 0 个苹果,再获得 1 个苹果,最终有 1 个苹果。\n - 数轴上从 0 向右移动 1 个单位,到达 1。\n\n**答案**:\\(0 + 1 = 1\\)", "score": 2.0, "analysis": "模型回复详细解释了0 + 1的计算过程,包括加法定义、交换律应用及实际举例验证,所有步骤均正确,最终答案与参考回复一致。虽然过程较为繁琐,但无任何错误,符合评估要求中的『完全正确』标准。"}]}]} {"session_id": 1, "messages": [{"role": "system", "content": "请完成下面的计算题"}, {"role": "user", "content": "0+2"}, {"role": "assistant", "reference_response": "2", "responses": [{"parameters": {"logprobs": false, "top_logprobs": 10, "frequency_penalty": 0.0, "temperature": 1.0, "top_p": 0.7, "max_tokens": 4096, "stop": []}, "usage": {"prompt_tokens": 13, "completion_tokens": 943, "total_tokens": 956}, "content": "\n\n0 + 2 的计算过程如下:\n\n1. **加法定义**:任何数与0相加,结果均为该数本身。即 \\( a + 0 = a \\)。 \n2. **应用交换律**:根据加法交换律,\\( 0 + 2 = 2 + 0 \\)。 \n3. **简化计算**:\\( 2 + 0 = 2 \\)。 \n\n**答案**:\\( 0 + 2 = 2 \\) \n\n通过数轴、集合论、公理体系或实际例子(如温度变化、物品数量)验证,结果一致。因此,0加2的最终结果为2。", "score": 2.0, "analysis": "模型回复详细解释了0+2的计算过程,尽管部分内容(如交换律应用、验证方法)对于简单加法问题可能显得冗余,但最终答案正确且与参考回复一致。回复中没有出现任何错误,符合评估要求中的完全正确标准。"}]}]}
每一行代表一次多轮对话
字段 | 类型 | 是否必填 | 备注 |
---|---|---|---|
session_id | str | 否 | 多轮对话标识符 |
message | list | 是 | 代表一个多轮对话(系统、用户、模型助手),其中每一个字典元素的参数包括role(角色:system、user、assistant)和content(角色的输入)。message必须以role为user的字典元素结尾。 |
answer | str | 否。若评测方式选择推理+自动评测,则必填 | 针对message中最后一个用户user提问的模型参考回复 |
parameters | dict | 否。支持对每次对话设置不同推理参数。若用户在评测集与方舟控制台中都设置了推理参数,以评测集为准。 | 推理参数,包括logprobs、top_logprobs、frequency_penalty、temperature、top_p、max_tokens、stop等。具体参考请求参数。 |
选择「推理+自动评测」的示例:
# 输入数据集 {"messages": [{"role": "user", "content": "1+1"}], "answer": "2","parameters": {"logprobs": false, "top_logprobs": 10, "frequency_penalty": 0.0, "temperature": 1.0, "top_p": 0.7, "max_tokens": 4096, "stop": []}} {"messages": [{"role": "system", "content": "请完成下面的计算题"}, {"role": "user", "content": "2+1"}], "answer": "3","parameters": {"logprobs": false, "top_logprobs": 10, "frequency_penalty": 0.0, "temperature": 1.0, "top_p": 0.7, "max_tokens": 4096, "stop": []}} {"messages": [{"role": "system", "content": "请完成下面的计算题"}, {"role": "user", "content": "3+1"}, {"role": "assistant", "content": "999"}, {"role": "user", "content": "3+2"}], "answer": "5","parameters": {"logprobs": false, "top_logprobs": 10, "frequency_penalty": 0.0, "temperature": 1.0, "top_p": 0.7, "max_tokens": 4096, "stop": []}} # 输出数据集 {"session_id": 0, "messages": [{"role": "user", "content": "1+1"}, {"role": "assistant", "reference_response": "2", "responses": [{"parameters": {"logprobs": false, "top_logprobs": 10, "frequency_penalty": 0.0, "temperature": 1.0, "top_p": 0.7, "max_tokens": 4096, "stop": []}, "usage": {"prompt_tokens": 11, "completion_tokens": 56, "total_tokens": 67}, "content": "按照基本的数学运算规则,在十进制中,1 + 1 = 2。但在二进制里,1 + 1 = 10 。如果没有特别说明,一般默认是十进制,所以通常1+1的结果为2。 ", "score": 2.0, "analysis": "问题仅要求计算1+1的值,参考回复为2,模型回复虽详细说明了不同进制下的情况,但最终得出通常1+1结果为2,与参考回复一致,满足评估要求。"}]}]} {"session_id": 1, "messages": [{"role": "system", "content": "请完成下面的计算题"}, {"role": "user", "content": "2+1"}, {"role": "assistant", "reference_response": "3", "responses": [{"parameters": {"logprobs": false, "top_logprobs": 10, "frequency_penalty": 0.0, "temperature": 1.0, "top_p": 0.7, "max_tokens": 4096, "stop": []}, "usage": {"prompt_tokens": 20, "completion_tokens": 16, "total_tokens": 36}, "content": "根据基本的数学加法运算,2 + 1 = 3。 ", "score": 2.0, "analysis": "问题要求完成计算题2 + 1,参考回复为3,模型回复准确计算出2 + 1 = 3,与参考回复一致,完全正确,符合评估要求。"}]}]} {"session_id": 2, "messages": [{"role": "system", "content": "请完成下面的计算题"}, {"role": "user", "content": "3+1"}, {"role": "assistant", "content": "999"}, {"role": "user", "content": "3+2"}, {"role": "assistant", "reference_response": "5", "responses": [{"parameters": {"logprobs": false, "top_logprobs": 10, "frequency_penalty": 0.0, "temperature": 1.0, "top_p": 0.7, "max_tokens": 4096, "stop": []}, "usage": {"prompt_tokens": 35, "completion_tokens": 13, "total_tokens": 48}, "content": "根据加法运算,3 + 2 = 5。 ", "score": 2.0, "analysis": "问题要求完成计算题3 + 2,参考回复为5,模型回复根据加法运算得出3 + 2 = 5,与参考回复一致,完全正确,符合评估要求。"}]}]}