You need to enable JavaScript to run this app.
导航

模型的效果评估

最近更新时间2022.07.21 16:37:22

首次发布时间2021.11.30 18:28:00

机器学习平台支持对【AutoML】模块训练得到的分类及回归多种模型进行效果评估,针对不同的任务场景对不同的效果指标做可视化,从而让用户对模型的推理效果有充分的了解。

使用前提
  1. 模型的格式和框架均为 AutoML
操作步骤
  1. 登录机器学习平台,单击左侧导航栏中的【模型服务】-【模型管理】进入列表页面。

  2. 单击待查看模型的名称进入详情页面,并在模型版本列表中选中待查看的版本,在右侧的【效果指标】标签页下即可查看到该模型的效果指标。

    • 分类模型:【效果指标】页面包含一个标签列表,默认选中 全部 以展示模型在所有类别上的预测效果,包含一些数值和图表类型的指标。单击标签列表中的某个类别将展示模型在该类别上的预测效果,会额外展示部分错误预测的样本示例。
      image.png
      image.png

    • 回归模型:因为不存在 “类别”,所以回归模型的【效果指标】页面不存在标签列表,仅包含评估指标的数值及图表。
      image.png

  3. 每种场景的模型支持哪些效果指标详见下文中的效果指标列表。

效果指标列表

机器学习平台目前支持图像分类、文本分类、表格分类及回归的效果指标,每种指标的含义、使用方法如下。

测试样本数

  • 含义:参与效果评估的样本数量。

FP

  • 含义:False Positive,错误预测成正例的样本(真实类别为负例,预测结果为正例)。默认展示前 20 个示例。
  • 使用场景:图像分类、文本分类、表格分类。

FN

  • 含义:False Negative,错误预测成负例的样本(真实类别为正例,预测结果为负例)。默认展示前 20 个示例。
  • 使用场景:图像分类、文本分类、表格分类。

TP

  • 含义:True Positive,正确预测的正例(真实类别为正例,预测结果也为正例)。默认展示前 x 个示例。
  • 使用场景:图像分类、文本分类、表格分类。

TN

  • 含义:True Negative,正确预测的负例(真实类别为负例,预测结果也为负例))。该指标在平台上未做展示。
  • 使用场景:图像分类、文本分类、表格分类。

Accuracy

  • 含义:准确率。分类正确的样本数占总样本数的比例,该指标越接近 1 则模型质量越高。

  • 使用场景:图像分类、文本分类、表格分类。

Recall

  • 含义:召回率。该指标越接近 1 则模型质量越高。该指标描述在所有正例中有多少被预测出来(预测的是否完整)。多分类的场景下分别以 Micro、Macro、Weighted 三种方式计算该指标。

  • 使用场景:图像分类、文本分类、表格分类。

Precision

  • 含义:精确率。该指标越接近 1 则模型质量越高。该指标反映了在预测成正例的结果中预测正确的比例(预测的是否准确)。多分类的场景下分别以 Micro、Macro、Weighted 三种方式计算该指标。

  • 使用场景:图像分类、文本分类、表格分类。

PR Curve

  • 含义:Precision-Recall 曲线。通过该曲线可查看 Precision 随 Recall 变化的趋势,曲线越靠近右上角则模型质量越高。多分类的场景下分别以 Micro、Macro、Weighted 三种方式计算该指标。

  • 使用场景:图像分类、文本分类、表格分类。

AuPRC

  • 含义:Precision-Recall 曲线下的面积。该指标越接近 1 则模型质量越高。多分类的场景下分别以 Micro、Macro、Weighted 三种方式计算该指标。
  • 使用场景:图像分类、文本分类、表格分类。

ROC Curve

  • 含义:Receiver Operating Characteristic 曲线。通过该曲线可查看 True Positive Rate 随 False Positive Rate 变化的趋势,曲线越靠近左上角则模型质量越高。多分类的场景下分别以 Micro、Macro、Weighted 三种方式计算该指标。

  • 使用场景:图像分类、文本分类、表格分类。

AuROC

  • 含义:ROC 曲线下的面积。该指标越接近 1 则模型质量越高。多分类的场景下分别以 Micro、Macro、Weighted 三种方式计算该指标。
  • 使用场景:图像分类、文本分类、表格分类。

F1 Score

  • 含义:F1 分数。Recall 和 Precision 共同作用下的指标,该指标越接近 1 则模型质量越高。多分类的场景下分别以 Micro、Macro、Weighted 三种方式计算该指标。

  • 使用场景:图像分类、文本分类、表格分类。

Confusion Matrix

  • 含义:混淆矩阵。展示样本被预测成各类别的数量或比例。矩阵中对角线的数值越大模型质量越高。当模型预测的类别数量不超过 20 时可直接在网页上查看,否则需要下载 .csv 到本地查看效果。

  • 使用场景:图像分类、文本分类、表格分类。

Feature Importance

  • 含义:特征重要性。该指标描述每个特征对模型的影响程度,特征对应的值越大则影响越强。默认展示前 20 个特征。

  • 使用场景:表格分类、表格回归。

Target

  • 含义:回归目标,即待预测的参数。
  • 使用场景:表格回归。

MAE

  • 含义:Mean Absolute Error,平均绝对误差。该指标用于描述目标值与预测值之间的平均绝对差,值越接近 0 则模型质量越高。MAE 能较好衡量回归模型的好坏,对异常点有更好的鲁棒性。

  • 使用场景:表格回归。

MSE

  • 含义:Mean Squared Error,均方误差。值越小表示模型质量越高。MSE 因为取了平方,所以能够放大数据中异常点的误差。

  • 使用场景:表格回归。

RMSE

  • 含义:均方根误差。该指标用于描述目标值与预测值之间均方差的平方根,值越接近 0 则模型质量越高。由于 MSE 与目标变量的量纲不一致,为了保证量纲一致性,我们需要对 MSE 进行开方 。RMSE 对离群值比 MAE 更敏感,因此如果担心大的误差,那么 RMSE 可能是一个更有用的评估指标。

  • 使用场景:表格回归。

RMSLE

  • 含义:均方根对数误差。该指标用于描述预测值和目标值加 1 的自然对数(目标值和预测值需要非负),值越接近 0 则模型质量越高。RMSLE 与 RMSE 类似,但前者对预测不足的惩罚比过度预测更重。如果不希望对大预测值误差的惩罚比对小预测值的更重,则此指标也非常合适。

  • 使用场景:表格回归。

R^2

  • 含义:决定系数。该指标用于描述目标值与预测值之间的皮尔逊相关系数的平方,值越接近 1 则模型质量越高。

  • 使用场景:表格回归。

MAPE

  • 含义:Mean Absolute Percentage Error,平均绝对百分比误差。 该指标用于描述目标值与预测值之差的绝对百分比的平均值(目标列需要非 0),值越接近 0 则模型质量越高。

  • 使用场景:表格回归。