You need to enable JavaScript to run this app.
导航

数据校验

最近更新时间2023.11.24 17:56:25

首次发布时间2022.01.28 14:41:34

阈值设置和字段校验设置

阈值设置

数据同步完后,平台会基于默认阈值对数据进行校验,产出一份数据校验报告。
校验项分为普通校验项和重要校验项:

  • 普通校验项:大部分校验项都是普通校验项,设置阈值时只需要设置“合格”和“警告”区间,出现异常时不会阻断后续流程。
  • 重要校验项:设置阈值时需要设置“合格”、“警告”和“严重”区间,校验状态为“严重”时会阻断后续流程。

建议您根据业务实际情况进行调整,否则可能会出现以下问题:

  • 默认阈值比实际业务数据情况严格:报告中会展示出较多异常,导致很难快速辨别真正的数据问题。
  • 默认阈值比实际业务数据情况宽松:实际数据可能存在问题,但报告校验为正常,导致无法发现问题。

图片

字段校验设置

平台支持对字段校验规则做自定义,您可以通过「数据探查」-「校验报告」找到右上角的「字段校验设置」入口进行校验规则的自定义。
支持定义的规则类型和适用场景如下:

规则类型

说明

规则配置方式

举例

内置规则

无需配置,默认需要校验

如校验bhv_time为当天时间分区内的时戳,需要以秒为单位的unixtimestamp

字段填充率规则

设置该字段取值有效的规则

  • 配置该字段为null、空或者0时为无效
  • 对于spm字段,可以校验每一段的填充率

query在search行为下不可为空

字段范围规则

设置该字段的取值范围

支持等于、不等于、大于、小于、属于、不属于等各种常见条件

  • 行为类型为续播时播放时长大于0
  • gender只能等于0或1

字段关系规则

设置该字段与其他字段的关系

仅支持对数值型字段设置,校验两个字段的相对大小

商品表的origin_price需要大于等于current_price

数据校验报告

校验报告内容

数据校验报告支持多日及单日查询,单天视图(即单日报告)是当天内的数据报告统计展示,多天视图(即整体报告)支持时间范围内的查询,可以展示多日趋势。
报告包括五个模块,各模块校验内容和常见异常原因如下:

校验项

说明

常见异常原因

数据量统计

确认三个表数据量、各行为类型和各场景数据量是否符合预期

  • 传输遗漏,未传重要的行为类型如曝光
  • 某些行为重复传输,如点击,导致点击数量大于曝光数量

字段统计

确认三个表中各字段缺失情况和分布同比情况

  • 字段缺失率高的,需要确认是否存在漏传
  • 字段分布同比异常的,需要确认字段值是否传错

拼接率统计

行为表拼商品表:行为表和商品表通过商品ID拼接的上的行为数量/总行为数量
行为表拼用户表:行为表和用户表通过用户ID拼接的上的行为数量/总行为数量

一般拼接率可达95%~100%,如拼接率不达标,可结合具体拼接失败的goods_id、user_id的case来排查。
常见原因:

  • 商品表/用户表数据不完整
  • 行为数据中的goods_id、user_id和商品表/用户表中id的加密方式不同、维度不同导致

行为归因率统计

根据配置的归因逻辑,行为归因成功的数量/行为总数量,一般需要分场景校验,关注重点场景。
举例说明指标定义click_to_exposure:分母是click总数量,分子是可以拼接到exposure的click的数量(理论上,每一个click之前一定发生exposure,理想状态下拼接率100%,一般来说拼接率95%以上基本符合预期)。

如归因率不达标,可结合具体归因失败的goods_id、user_id的case来排查。
常见原因:

  • 埋点不完善(可以重点区分ios和andriod用户、不同版本号定位原因)
  • 配置的归因逻辑不合理

业务指标统计

确认统计指标是否符合预期

  • 行为数据上报冗余
  • 配置的归因逻辑不合理或者和当前客户侧业务报表口径有出入

说明

用户表和商品表均为合并之后的数据。

校验报告产出的条件

  • 数据量统计
    • 用户表/物品表:开始时间到当天的数据连续时,才可产出
    • 行为表同步:当天有行为数据时,即可产出
  • 字段统计
    • 用户表/物品表:开始时间到当天的数据连续时,才可产出
    • 行为表同步:当天有行为数据时,即可产出
  • 拼接率统计:有一段开始时间到当天的连续用户、物品数据及当天行为数据,才可产出
  • 归因率统计:有一段开始时间到当天的连续行为数据,才可产出
  • 业务指标统计:
    • 归因前:当天有行为数据时,即可产出
    • 归因后:有一段开始时间到当天的连续行为数据,才可产出

部分报告产出后即可进入查看,产出报告中存在阻断时,即可在同步列表中看到“严重”标记。
图片

注意

若将天级数据传入当天分区,数据校验报告会在第二天才开始产出(天级数据任务为T+1执行)

校验状态

校验项状态

校验项状态

说明

合格

校验项在合格区间内,可以确认通过校验

警告

校验项处于警告区间,表明存在一些数据质量问题,建议检查数据传输是否有重复或遗漏,如检查无问题,可确认通过校验

严重

重要校验项处于严重区间,会严重影响推荐效果,不可确认通过校验,需要修复数据后重新同步,或确认阈值设置是否合理

校验报告状态

某天的校验报告状态根据该天所有校验项的状态来确定,只存在合格和严重两种状态。只要出现一个状态为“严重”的校验项,则当天报告状态为“严重”,否则为“合格”。
对于校验状态为“严重”的报告,建议的处理步骤如下:
图片

  • 第一步:确认阈值设置是否合理。首先确认阈值设置是否合理,如果阈值非常严格(如要求合格率为100%),而实际数据很难满足需求,则会出现较多“严重”项;如阈值不合理,则优先调整阈值。
  • 第二步:确认数据能否修复。如数据可以修复,则建议修复完数据后进行重传。
  • 第三步:确认数据问题是常态还是短期问题(如618大促期间,行为数据量波动大其实是短期特殊情况)。如明确是长期问题,则建议调整阈值。
  • 第四步:确认该天存在严重问题的数据是否需要保留。如需要保留数据进入特征工程、模型训练,则可操作忽略问题,即对问题做放行处理;如不希望有问题的数据进入模型,则可在同步列表操作「跳过」该天数据。

注意

调整阈值后,只会对当前校验状态是“严重”的报告生效。

校验状态通知(仅saas)

每个阶段数据校验遇到异常问题(不阻断下游)或严重问题(不阻断下游)时,平台均会通过站内信、短信、邮件的方式进行通知。您可在右上角的「消息接收管理」-「消息接收配置」中,找到「产品消息」-「产品状态提醒」,管理通知渠道以及接收人。
图片
图片
图片
点击发送验证后,手机会收到确认短信,点进链接确认即可:
图片
完毕后,所配置手机号就可以接收该租户下相关短信通知了,我们可以在 [订阅管理] 里面添加想要关心的消息类型。如果想感知阻断报警,则需勾选 [产品消息]。
图片

校验报告确认

测试数据、历史数据阶段都需要完成校验报告整体确认,方可进入下一阶段,增量数据阶段无校验报告确认环节,建议您关注报告短信中提示的异常问题,并登录平台查看。当前阶段所有数据报告全部生成完成后,可通过点击页面上的“确认校验通过”,进入下一阶段。

注意

校验报告确认通过后,将不可再重新同步该阶段的数据。

图片