创建模型评测任务--火山方舟-火山引擎

文档中心

火山方舟

模型评测

创建模型评测任务

模型评测是人工智能开发流程中的关键环节，对于保障模型性能、稳定性和应用效果具有重要意义。通过科学、系统的评测，能够全面了解模型在不同场景下的表现，验证其是否满足业务需求，同时为模型优化、选型和迭代提供可靠依据。火山方舟平台提供一套完整灵活的模型评测能力，帮助用户高效评估模型质量，提升模型落地效率与应用价值。

发起评测

用户可从模型评测、模型广场、模型仓库/模型精调模块发起评测。

模型评测页面。点击“创建评测任务”按钮。

模型广场-模型详情页。点击“创建评测任务”按钮。

模型仓库-列表页/详情页。

模型精调-列表页/详情页。

评测对象

您可以从「火山方舟」的「模型广场」「模型仓库」中选择评测对象，也能选用「机器学习平台」提供的在线服务接入点。

火山方舟模型

对「火山方舟」的模型进行评测时，推理方式 可选择「批量推理」或「在线推理」。

批量推理

利用非高峰期计算资源提供更高性价比服务，适用于可接受离线延迟推理的大规模数据场景。
使用「批量推理」方式，提交「评测任务」后将在方舟「批量推理」模块同步创建「批量推理任务」，用户可从评测任务详情页点击推理任务ID跳转查看。
部分模型不支持「批量推理」方式；部分模型会弹出「模型压缩」提示，压缩成功，可用于批量推理，性能更好、承载力更高。

在线推理

通过推理接入点灵活调整资源并访问模型，适用于需要实时处理、快速响应的小规模数据场景。
选择「在线推理」后，平台将筛选对应模型版本的自定义推理接入点；若不存在，用户可跳转至「在线推理」模块创建。提交「评测任务」后，可在「推理接入点」查看任务运行状况。

机器学习平台

若接入来源为「机器学习平台」，平台默认采用 在线推理 方式，筛选火山方舟平台上注册来源为机器学习平台的推理接入点。

评测数据集

平台支持预置数据集与用户数据集（使用批量推理方式时，当前仅支持用户数据集）。
用户数据集可选择本地上传或TOS上传，会产生计费，具体可查看计费方式。
文件格式参考用户数据集。

评测配置

在使用用户上传的数据集时，平台支持对「单轮任务」或「多轮任务」进行评测，提供「前缀匹配」「包含关键词匹配」「裁判员模型打分」三种方式。
若使用平台预置数据集，无需额外设置，将采用平台默认评测方式。

计费说明

评测流程不计费，以推理流程实际计费为准。平台将预估待评测数据集的 tokens数量，并结合历史数据估算输入输出的总 tokens数量，为用户提供参考。具体费用以账单为准。
火山方舟平台中，不同推理方式采用不同的计费方式。「在线推理」支持按 tokens 使用量后付费、TPM 保障包、模型单元等多种计费方式（参见在线推理计费），用户可查看推理接入点已开通的计费服务。「批量推理」的计费方式（参见批量推理计费）为按tokens使用量后付费。使用从机器学习平台注册的接入点进行评测时，火山方舟将不会产生额外费用。
评测任务提交后，可在任务详情页点击推理 ID，前往查看推理运行详情。

最近更新时间：2025.06.13 17:30:35

这个页面对您有帮助吗？

有用

无用

火山方舟

发起评测 #

评测对象 #

火山方舟模型 #

批量推理

在线推理

机器学习平台 #

评测数据集 #

评测配置 #