评测集格式目前支持JSONL,一行一个评估样本
格式说明
# 输入文件eval_math.jsonl {"prompt":"计算1+1","answer":"2"} {"system":"请完成下面的计算题","prompt":"1+1","parameters":{"top_k":1},"answer":"2"} {"prompt_error":"This is an error prompt"} # 格式错误的示例样本,上传后无法进行评测 # 输出文件eval_math_result.json {"prompt":"计算1+1","answer":"2","response":"2","usage":{"prompt_tokens":6,"completion_tokens":2,"total_tokens":8}} {"system":"请完成下面的计算题","prompt":"1+1","parameters":{"top_k":1},"answer":"2","response":"2","usage":{"prompt_tokens":13,"completion_tokens":2,"total_tokens":15}} {"prompt_error":"This is an error prompt","error":"Invalid input"} # 若因数据或平台问题导致推理无法完成,将展示error
输入字段说明
字段 | 类型 | 选填 | 备注 |
---|---|---|---|
prompt | str | 必填 | 输入指令,作为向模型的提问 |
answer | str | 必填 | 评测的参考答案,用于对模型生成的回答进行验证 |
system | str | 选填 | 引入角色的输入指令 |
parameters | dict | 选填 | 请求参数,参考API调用指南中API Specification 一节的input 中的parameters 描述 |
输出字段说明
字段 | 类型 | 备注 |
---|---|---|
response | str | 模型生成的回答 |
usage | dict | token使用信息,参考API调用指南中API Specification 一节的ouput 中的usage 描述 |
error | str | 若因数据或平台问题导致推理无法完成,将展示error |
# 输入文件test.jsonl {"messages":[{"role":"system","content":"请完成下面的计算题"},{"role":"user","content":"1+1"}],"parameters":{"top_k":1}} {"messages":[{"role":"system","content":"请完成下面的计算题"},{"role":"user","content":"2+1"},{"role":"user","content":"2+2"}],"parameters":{"top_k":1}} {"messages":[{"role":"system","content":"请完成下面的计算题"},{"role":"user","content":"3+1"},{"role":"assistant","content":"999"},{"role":"user","content":"3+2"}],"parameters":{"top_k":1}} {"messages":[{"role":"someone","content":"error role"}]}# 自动识别多轮推理格式,格式错误的示例样本,上传后无法进行推理; # 输出文件test_result.json {"messages":[{"role":"system","content":"请完成下面的计算题"},{"role":"user","content":"1+1"},{"role":"assistant","content":"2"}],"parameters":{"top_k":1},"usage":{"prompt_tokens":13,"completion_tokens":2,"total_tokens":15}} {"messages":[{"role":"system","content":"请完成下面的计算题"},{"role":"user","content":"2+1"},{"role":"assistant","content":"3"},{"role":"user","content":"2+2"},{"role":"assistant","content":"4"}],"parameters":{"top_k":1},"usage":{"prompt_tokens":33,"completion_tokens":4,"total_tokens":37}} {"messages":[{"role":"system","content":"请完成下面的计算题"},{"role":"user","content":"3+1"},{"role":"assistant","content":"999"},{"role":"user","content":"3+2"},{"role":"assistant","content":"5"}],"parameters":{"top_k":1},"usage":{"prompt_tokens":22,"completion_tokens":2,"total_tokens":24}} {"messages":[{"role":"someone","content":"error role"}],"error":"Invalid role: {"someone"}}# 若因数据或平台问题导致推理无法完成,将展示error
输入字段说明
字段 | 类型 | 选填 | 备注 |
---|---|---|---|
messages | list | 必填 | 多轮输入输出,参考API调用指南中API Specification 一节的input 中的messages 描述,同时需要注意,messages字段不能以assistant的回复结束 |
parameters | str | 选填 | 请求参数,参考API调用指南中API Specification 一节的input 中的parameters 描述 |
输出字段说明
字段 | 类型 | 备注 |
---|---|---|
messages | str | 模型会在messages字段中,所有`{role:"user"}`后插入`{role:"assistant","content":"xxx"}`对象作为模型的输出 |
usage | dict | token使用信息,参考API调用指南中API Specification 一节的ouput 中的usage 描述 |
error | str | 若因数据或平台问题导致推理无法完成,将展示error |