模型的效果评估--机器学习平台-火山引擎

文档中心

机器学习平台

模型管理

模型的效果评估

模型的效果评估

机器学习平台支持对【AutoML】模块训练得到的分类及回归多种模型进行效果评估，针对不同的任务场景对不同的效果指标做可视化，从而让用户对模型的推理效果有充分的了解。

使用前提

模型的格式和框架均为 AutoML。

操作步骤

登录机器学习平台，单击左侧导航栏中的【模型服务】-【模型管理】进入列表页面。
单击待查看模型的名称进入详情页面，并在模型版本列表中选中待查看的版本，在右侧的【效果指标】标签页下即可查看到该模型的效果指标。
- 分类模型：【效果指标】页面包含一个标签列表，默认选中 全部 以展示模型在所有类别上的预测效果，包含一些数值和图表类型的指标。单击标签列表中的某个类别将展示模型在该类别上的预测效果，会额外展示部分错误预测的样本示例。
- 回归模型：因为不存在 “类别”，所以回归模型的【效果指标】页面不存在标签列表，仅包含评估指标的数值及图表。
每种场景的模型支持哪些效果指标详见下文中的效果指标列表。

效果指标列表

机器学习平台目前支持图像分类、文本分类、表格分类及回归的效果指标，每种指标的含义、使用方法如下。

测试样本数

含义：参与效果评估的样本数量。

FP

含义：False Positive，错误预测成正例的样本（真实类别为负例，预测结果为正例）。默认展示前 20 个示例。
使用场景：图像分类、文本分类、表格分类。

FN

含义：False Negative，错误预测成负例的样本（真实类别为正例，预测结果为负例）。默认展示前 20 个示例。
使用场景：图像分类、文本分类、表格分类。

TP

含义：True Positive，正确预测的正例（真实类别为正例，预测结果也为正例）。默认展示前 x 个示例。
使用场景：图像分类、文本分类、表格分类。

TN

含义：True Negative，正确预测的负例（真实类别为负例，预测结果也为负例））。该指标在平台上未做展示。
使用场景：图像分类、文本分类、表格分类。

Accuracy

含义：准确率。分类正确的样本数占总样本数的比例，该指标越接近 1 则模型质量越高。
使用场景：图像分类、文本分类、表格分类。

Recall

含义：召回率。该指标越接近 1 则模型质量越高。该指标描述在所有正例中有多少被预测出来（预测的是否完整）。多分类的场景下分别以 Micro、Macro、Weighted 三种方式计算该指标。
使用场景：图像分类、文本分类、表格分类。

Precision

含义：精确率。该指标越接近 1 则模型质量越高。该指标反映了在预测成正例的结果中预测正确的比例（预测的是否准确）。多分类的场景下分别以 Micro、Macro、Weighted 三种方式计算该指标。
使用场景：图像分类、文本分类、表格分类。

PR Curve

含义：Precision-Recall 曲线。通过该曲线可查看 Precision 随 Recall 变化的趋势，曲线越靠近右上角则模型质量越高。多分类的场景下分别以 Micro、Macro、Weighted 三种方式计算该指标。
使用场景：图像分类、文本分类、表格分类。

AuPRC

含义：Precision-Recall 曲线下的面积。该指标越接近 1 则模型质量越高。多分类的场景下分别以 Micro、Macro、Weighted 三种方式计算该指标。
使用场景：图像分类、文本分类、表格分类。

ROC Curve

含义：Receiver Operating Characteristic 曲线。通过该曲线可查看 True Positive Rate 随 False Positive Rate 变化的趋势，曲线越靠近左上角则模型质量越高。多分类的场景下分别以 Micro、Macro、Weighted 三种方式计算该指标。
使用场景：图像分类、文本分类、表格分类。

AuROC

含义：ROC 曲线下的面积。该指标越接近 1 则模型质量越高。多分类的场景下分别以 Micro、Macro、Weighted 三种方式计算该指标。
使用场景：图像分类、文本分类、表格分类。

F1 Score

含义：F1 分数。Recall 和 Precision 共同作用下的指标，该指标越接近 1 则模型质量越高。多分类的场景下分别以 Micro、Macro、Weighted 三种方式计算该指标。
使用场景：图像分类、文本分类、表格分类。

Confusion Matrix

含义：混淆矩阵。展示样本被预测成各类别的数量或比例。矩阵中对角线的数值越大模型质量越高。当模型预测的类别数量不超过 20 时可直接在网页上查看，否则需要下载 .csv 到本地查看效果。
使用场景：图像分类、文本分类、表格分类。

Feature Importance

含义：特征重要性。该指标描述每个特征对模型的影响程度，特征对应的值越大则影响越强。默认展示前 20 个特征。
使用场景：表格分类、表格回归。

Target

含义：回归目标，即待预测的参数。
使用场景：表格回归。

MAE

含义：Mean Absolute Error，平均绝对误差。该指标用于描述目标值与预测值之间的平均绝对差，值越接近 0 则模型质量越高。MAE 能较好衡量回归模型的好坏，对异常点有更好的鲁棒性。
使用场景：表格回归。

MSE

含义：Mean Squared Error，均方误差。值越小表示模型质量越高。MSE 因为取了平方，所以能够放大数据中异常点的误差。
使用场景：表格回归。

RMSE

含义：均方根误差。该指标用于描述目标值与预测值之间均方差的平方根，值越接近 0 则模型质量越高。由于 MSE 与目标变量的量纲不一致，为了保证量纲一致性，我们需要对 MSE 进行开方。RMSE 对离群值比 MAE 更敏感，因此如果担心大的误差，那么 RMSE 可能是一个更有用的评估指标。
使用场景：表格回归。

RMSLE

含义：均方根对数误差。该指标用于描述预测值和目标值加 1 的自然对数（目标值和预测值需要非负），值越接近 0 则模型质量越高。RMSLE 与 RMSE 类似，但前者对预测不足的惩罚比过度预测更重。如果不希望对大预测值误差的惩罚比对小预测值的更重，则此指标也非常合适。
使用场景：表格回归。

R^2

含义：决定系数。该指标用于描述目标值与预测值之间的皮尔逊相关系数的平方，值越接近 1 则模型质量越高。
使用场景：表格回归。

MAPE

含义：Mean Absolute Percentage Error，平均绝对百分比误差。该指标用于描述目标值与预测值之差的绝对百分比的平均值（目标列需要非 0），值越接近 0 则模型质量越高。
使用场景：表格回归。

最近更新时间：2022.07.21 16:37:22

这个页面对您有帮助吗？

有用

有用

无用

无用