在评测过程中,评估器充当裁判的角色,通过量化评测对象的输出结果来评估其表现。在执行评测实验时,LLM 评估器会根据 Prompt 中预设的标准和规则对评估对象的输出进行打分,并提供得分原因。得分范围从 0.0 到 1.0,1.0 表示完全满足评分标准,0.0 表示完全不满足评分标准。本文介绍如何创建与管理评估器。
创建评估器
- 登录 Agent 运营分析平台。
- 在左侧选择业务空间,并进入评测工具 > 评估器管理页面。
- 在页面右上角,单击新建评估器,并完成以下配置。

- 名称:必填,自定义名称,标识当前评估器。
- 描述:选填,自定义描述,可填写当前评估器的用途、限制等信息。
- 模型选择:必填,选择评估器所用的大模型,并根据需要设置 max_tokens、temperature、top_p。
- Prompt:必填,输入评估器的提示词,指示评估器如何进行评估,也可以使用内置的 Prompt 模板或基于模版进行修改。
单击选择模板链接,查看并选择一个Prompt 模板。

- User Prompt:选填,当评估规则较为复杂时,可以通过单击 + 添加 User Prompt 添加 User Prompt,以强调特定的评估规则。User Prompt 的优先级高于 System Prompt,因此模型会优先处理和评估 User Prompt 中输入的规则内容。这样可以确保复杂规则得到准确的关注和应用。

- 配置完成后,在页面底部单击调试。
在预览与调试页面,构造测试数据,预览评估器的运行结果是否符合预期。

- 调试无问题后,返回创建页面,在页面底部单击创建。
- 在新建评估器对话框,设置评估器的版本(格式为 a.b.c,例如 0.0.1)与版本说明,并单击确认。

编辑/复制/删除评估器
登录 Agent 运营分析平台。
在左侧选择业务空间,并进入评测工具 > 评估器管理页面。
找到指定评估器,选择进行以下操作。
操作 | 说明 |
|---|
编辑评估器 | 您可以根据实际需要,调整评估器原有的配置,调整后需要提交新的评估器版本使配置生效。 - 在操作列单击详情。
 - 在评估器详情页,支持调整模型、Prompt、User Prompt 配置。
- 调整完成后,进行调试。
- 调试无问题后,在页面右上角单击提交新版本。
- 在提交新版本对话框,设置评估器的版本(格式为 a.b.c,例如 0.0.1)与版本说明,并单击提交。

|
复制评估器 | 在操作列单击复制,复制评估器可以基于原有评估器配置,快速新建评估器,新建过程中支持修改原有评估器的配置。
 |
删除评估器 | 在操作列选择 ··· > 删除,删除不再需要的评估器。 
|