评测工具概述--增长分析（私有化）-火山引擎

文档中心

增长分析（私有化）

请输入

评测工具

评测工具概述

Agent 运营分析的评测工具提供评测数据管理、自动化评估器和综合评测实验结果统计，您可以根据评测结果，在效果、性能和成本等方面优化 Agent。

什么是评测

评测 (Evaluation) 是一种通过结构化评估框架，对评估对象进行全面质量监控和优化的过程。其核心在于建立多种评估策略（如 LLM 辅助评估、人工校准评估）以及多维度指标（包括质量、性能和成本）。结合全链路追踪技术，评测能够分析 Agent 的输入输出过程，进行异常检测，并推动持续集成流程的优化。
评测的目标是确保评估对象在各个方面都能达到预期，包括功能性（如意图理解的准确性和可靠性）和经济性（如单次推理的成本）。通过评测，开发者可以有效地提升评估对象的质量和效率。

功能模块

评测工具包含评测集、评估器和实验功能。

评测集

评测集用于评测评估对象的一组数据。它通常包含输入数据和预期的输出结果，帮助开发者验证评估对象的效果。

输入数据：提供给评测对象的标准化测试输入，用于评估其在不同场景下的表现。
预期输出：理想的输出结果，作为评估基准，作为某些评估器的参考输入。

具体操作说明，请参见管理评测集。

评估器

评估器作为评测过程中的裁判，负责量化评测对象的表现。它通过以下方式进行评估：

得分：评估器根据预定义的评估标准对评测对象进行评分，涵盖准确性、效率等多个维度。
原因：提供评分原因，帮助开发者理解评测对象优劣原因及改进方向。

具体操作说明，请参见管理评估器。

实验

综合汇总评测过程中的所有数据和分析结果，助力开发者进行业务决策。实验报告包括以下部分：

评测集数据：所有测试输入和预期输出数据。
评测对象输出结果的评分结果：详细揭露评测对象在各测试场景下的实际输出、成本、性能表现。
评估器打分（即评估指标）：提供不同评估器的评分结果，从多个角度分析评测对象的表现。

具体操作说明，请参见管理评测实验。

最近更新时间：2026.04.15 11:19:55

这个页面对您有帮助吗？

有用

无用

增长分析（私有化）

评测集 #

评估器 #

实验 #

评测集

评估器

实验