模型评测是人工智能开发流程中的关键环节,对于保障模型性能、稳定性和应用效果具有重要意义。通过科学、系统的评测,能够全面了解模型在不同场景下的表现,验证其是否满足业务需求,同时为模型优化、选型和迭代提供可靠依据。火山方舟平台提供一套完整灵活的模型评测能力,帮助用户高效评估模型质量,提升模型落地效率与应用价值。
用户可从模型评测、模型广场、模型仓库/模型精调模块发起评测。
您可以从「火山方舟」的「模型广场」「模型仓库」中选择评测对象,也能选用「机器学习平台」提供的在线服务接入点。
对「火山方舟」的模型进行评测时,推理方式 可选择「批量推理」或「在线推理」。
若接入来源为「机器学习平台」,平台默认采用 在线推理 方式,筛选火山方舟平台上注册来源为机器学习平台的推理接入点。
平台支持预置数据集与用户数据集(使用批量推理方式时,当前仅支持用户数据集)。
用户数据集可选择本地上传或TOS上传,会产生计费,具体可查看计费方式。
文件格式参考用户数据集。
在使用用户上传的数据集时,平台支持对「单轮任务」或「多轮任务」进行评测,提供「前缀匹配」「包含关键词匹配」「裁判员模型打分」三种方式。
若使用平台预置数据集,无需额外设置,将采用平台默认评测方式。
评测流程不计费,以推理流程实际计费为准。平台将预估待评测数据集的 tokens数量,并结合历史数据估算输入输出的总 tokens数量,为用户提供参考。具体费用以账单为准。
火山方舟平台中,不同推理方式采用不同的计费方式。「在线推理」支持按 tokens 使用量后付费、TPM 保障包、模型单元等多种计费方式(参见在线推理计费),用户可查看推理接入点已开通的计费服务。「批量推理」的计费方式(参见批量推理计费)为按tokens使用量后付费。使用从机器学习平台注册的接入点进行评测时,火山方舟将不会产生额外费用。
评测任务提交后,可在任务详情页点击推理 ID,前往查看推理运行详情。