随着大模型整体行业热度快速上升,越来越多的大模型产品急需科学高效的评估指标与评估工具,对大模型产品的应用效果给出综合评价结果。面向大模型采购客户,DataTester提供高效易用的大模型在线评测、分析、监控和快速优化产品能力,本文为您介绍大模型评测的功能介绍和操作指导。
DataTester为您预置了大模型评测指标,支持从回答关联度、回答真实度、上下文关联度等指标维度,对大模型的应用效果进行评测,并为您生成评测报告。您可以基于评测报告进一步调试优化模型,以达到更优的应用效果。
完成测评任务创建后,您可以在测评任务页面查看到测评任务的任务ID,您查看并记录对应ID,用于后续测评数据的接入。
当前支持通过调用HTTP API将测评上报测评数据。OpenAPI的使用指导如下。
线上环境:https://tab.volces.com
接口描述:上报评测数据
请求路径:/evaluate/openapi/v1/log
请求方式:POST
请求所需参数:
参数 | 类型 | 是否必选 | 描述 |
---|---|---|---|
app_key | string | 是 | Datatester应用的AppKey,您可以在项目列表的项目详情中查看AppKey。 |
eval_id | int | 否 | 评测任务ID,您可以在上述步骤中获取已创建测评任务的任务ID。 |
dataset_id | int | 否 | 数据集ID(当前暂不支持,后续数据集功能上线后,与任务ID二选一进行配置即可)。 |
contents | list[dict] | 是 | 评测消息内容,详情请参见下文的content内容配置要求。 |
local_time_ms | int | 否 | 事件上报毫秒时间戳,您需配置为测评消息事件发生的时间。如果未配置,则后续测评分析时对应事件的时间会默认补充为服务器消息接收时间。 |
如上述请求参数中填写dataset_id,content可为任意json格式
填写dataset_id,需先在页面创建数据集;上报数据将下保存至数据集,可将数据集关联至评测任务
如上述请求参数中填写eval_id,content格式需遵循下面的格式
填写eval_id,上报数据将直接用评测任务
参数 | 类型 | 是否必选 | 描述 |
---|---|---|---|
question | string | 否 | 问题 |
answer | string | 否 | 回答 |
contexts | list[string] | 否 | 召回上下文片段 |
ground_truth | string | 否 | 标准答案 |
custom | dict | 否 | 自定义字段,其中:
|
{ "app_key": "xxx", "eval_id": xx, "contents": [ { "question": "p值是什么??", "answer": "p值是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明这种情况发生的概率很小,但如果出现了,根据小概率原理,我们就有理由拒绝原假设。P值越小,说明实验发现的差异是因为抽样误差导致的概率越小,极大程度上还是由于本质上存在差异造成,我们拒绝原假设的理由越充分。", "contexts": [ "wins(B) + ties(A, B)]\n将上面的值代入到公式(1)中,即可求得检验统计量的值,进而求出p值(使用score代入进行计算时需要注意:X=avg(status)=2 * score;另外,上面的方差也可以直接由原始的方差公式变换求得,大家可以自己推导)。', '3. 计算统计量、检验阈值、置信区间及p值\n4. 得出结论:若p<0.05或|t|>阈值或置信区间包含0,则拒绝原假设;若p>0.05或|t|<=阈值或置信区间不包含0,则无法拒绝原假设。\n Note:有些其他的计算公式会假定两组的总体方差相等,在方差的计算方式上有区别,这类公式不推荐,因为该假设在AB实验应用中并不常见。\n**p-value**(后面还有个链接)\nP值就是当原假本观察结果或更极端结果出现的概率。如果P值很小,说明这种情况发生的概率很小,但如果出现了,根据小概率原理,我们就有理由拒绝原假设。P值越小,**说明实验发现的差异是因为抽样误差导致的概率越小,极大程度上还是由于本质上存在差异造成**,我们拒绝原假设的理由越充分。\n**区别实验的True effect 、effect 、MDE**\nTrue effect:两组总体参数的差异。\nEffect:两组样本均值差或者说实验组与对照组间的指标差。" ], "ground_truth": "p值是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明这种情况发生的概率很小,但如果出现了,根据小概率原理,我们就有理由拒绝原假设。P值越小,说明实验发现的差异是因为抽样误差导致的概率越小,极大程度上还是由于本质上存在差异造成,我们拒绝原假设的理由越充分。", "custom": { "cost_token": 123, "cost_time": 111 } } ] }
接口返回值:
参数 | 类型 | 描述 |
---|---|---|
code | int | 接口返回状态,200为成功 |
message | string | 接口返回信息,成功时默认为success |
data | string | 成功是返回ok |
{ "code": 0, "message": "success", "data": "ok" }
curl --location 'https://tab.volces.com/evaluate/openapi/v1/log' \ --header 'Content-Type: application/json' \ --data '{ "app_key": "5c64881c026e79318be99c6474******", "dataset_id": 1, "contents": [ { "input": { "messages": [ { "type": "assitant", "message": "你好" } ] }, "output": "你好" } ], "local_time_ms": 1724155352630 }'
在模型测评任务页面单击对应测评任务名称,即可查看对应测评任务的测评结果报告。
在模型测评任务页面,您可以对测评任务进行编辑、删除,或关闭/开启的操作。