Agent 运营分析的评测工具提供评测数据管理、自动化评估器和综合评测实验结果统计,您可以根据评测结果,在效果、性能和成本等方面优化 Agent。
评测 (Evaluation) 是一种通过结构化评估框架,对评估对象进行全面质量监控和优化的过程。其核心在于建立多种评估策略(如 LLM 辅助评估、人工校准评估)以及多维度指标(包括质量、性能和成本)。结合全链路追踪技术,评测能够分析 Agent 的输入输出过程,进行异常检测,并推动持续集成流程的优化。
评测的目标是确保评估对象在各个方面都能达到预期,包括功能性(如意图理解的准确性和可靠性)和经济性(如单次推理的成本)。通过评测,开发者可以有效地提升评估对象的质量和效率。
评测工具包含评测集、评估器和实验功能。
评测集用于评测评估对象的一组数据。它通常包含输入数据和预期的输出结果,帮助开发者验证评估对象的效果。
具体操作说明,请参见管理评测集。
评估器作为评测过程中的裁判,负责量化评测对象的表现。它通过以下方式进行评估:
具体操作说明,请参见管理评估器。
综合汇总评测过程中的所有数据和分析结果,助力开发者进行业务决策。实验报告包括以下部分:
具体操作说明,请参见管理评测实验。