在模型评测菜单页面,点击 人工评测 tab,点击左上角 新建评测任务 按钮,新建人工评测任务。
点击 标准评测模版 卡片后进入到模版配置页面。
填写创建评测模版表单,包括填写任务名称、培训文档、批注驳回分类,切换基础版或者专业版配置。基础版可以配置"满意度"评测维度,并且可以自定义此维度标签。点击 下一步 进入到数据送标注配置页面。
切换至专业版后,可以查看GSB打分,勾选 有用性 , 真实性 , 安全性 等维度,并且可以自定义0~9分的各个维度的打分标签。可以勾选 自身问题类型 ,并且可以自定义类型标签。点击 下一步 进入到数据送标注配置页面。
点击 新增数据 按钮,配置送标注数据。
如无需调用模型生成答案,可以选择评测数据类型为离线格式的数据集,并且需要选择多模型或者单模型的评估模式。
需要模型生成答案时,需要分别选择待评测的新旧模型名称(支持选择 预置模型 或者 我的服务 中的模型),评估模式,选择评测数据类型为在线格式的数据集。
点击 确定 按钮后,可以看到送标数据的预估生成时间。如果由模型生成Response数据,可以点击 下载生成后数据 下载生成的数据,点击 下一步 按钮,继续任务配置。
点击各个角色的下拉框,为不同火山子账号分配此任务的不同角色。待选子账号范围为相同主账号下的所有子账号。