You need to enable JavaScript to run this app.
导航
创建模型评测任务
最近更新时间:2025.06.13 17:30:35首次发布时间:2023.09.22 14:50:53
我的收藏
有用
有用
无用
无用

模型评测是人工智能开发流程中的关键环节,对于保障模型性能、稳定性和应用效果具有重要意义。通过科学、系统的评测,能够全面了解模型在不同场景下的表现,验证其是否满足业务需求,同时为模型优化、选型和迭代提供可靠依据。火山方舟平台提供一套完整灵活的模型评测能力,帮助用户高效评估模型质量,提升模型落地效率与应用价值。

发起评测

用户可从模型评测、模型广场、模型仓库/模型精调模块发起评测。

  1. 模型评测 页面。点击“创建评测任务”按钮。

Image

  1. 模型广场-模型详情页。点击“创建评测任务”按钮。

Image

  1. 模型仓库-列表页/详情页。

Image

  1. 模型精调-列表页/详情页。

Image
Image

评测对象

您可以从「火山方舟」的「模型广场」「模型仓库」中选择评测对象,也能选用「机器学习平台」提供的在线服务接入点。

火山方舟模型

对「火山方舟」的模型进行评测时,推理方式 可选择「批量推理」或「在线推理」。

批量推理

  • 利用非高峰期计算资源提供更高性价比服务,适用于可接受离线延迟推理的大规模数据场景。
  • 使用「批量推理」方式,提交「评测任务」后将在方舟「批量推理」模块同步创建「批量推理任务」,用户可从评测任务详情页点击推理任务ID跳转查看。
  • 部分模型不支持「批量推理」方式;部分模型会弹出「模型压缩」提示,压缩成功,可用于批量推理,性能更好、承载力更高。

在线推理

  • 通过推理接入点灵活调整资源并访问模型,适用于需要实时处理、快速响应的小规模数据场景。
  • 选择「在线推理」后,平台将筛选对应模型版本的自定义推理接入点;若不存在,用户可跳转至「在线推理」模块创建。提交「评测任务」后,可在「推理接入点」查看任务运行状况。

机器学习平台

若接入来源为「机器学习平台」,平台默认采用 在线推理 方式,筛选火山方舟平台上注册来源为机器学习平台的推理接入点。

评测数据集

平台支持预置数据集与用户数据集(使用批量推理方式时,当前仅支持用户数据集)。
用户数据集可选择本地上传或TOS上传,会产生计费,具体可查看计费方式
文件格式参考用户数据集

评测配置

在使用用户上传的数据集时,平台支持对「单轮任务」或「多轮任务」进行评测,提供「前缀匹配」「包含关键词匹配」「裁判员模型打分」三种方式。
若使用平台预置数据集,无需额外设置,将采用平台默认评测方式。

计费说明

评测流程不计费,以推理流程实际计费为准。平台将预估待评测数据集的 tokens数量,并结合历史数据估算输入输出的总 tokens数量,为用户提供参考。具体费用以账单为准。
火山方舟平台中,不同推理方式采用不同的计费方式。「在线推理」支持按 tokens 使用量后付费、TPM 保障包、模型单元等多种计费方式(参见在线推理计费),用户可查看推理接入点已开通的计费服务。「批量推理」的计费方式(参见批量推理计费)为按tokens使用量后付费。使用从机器学习平台注册的接入点进行评测时,火山方舟将不会产生额外费用。
评测任务提交后,可在任务详情页点击推理 ID,前往查看推理运行详情。