You need to enable JavaScript to run this app.
导航

构建ID图谱

最近更新时间2023.12.12 16:49:22

首次发布时间2023.05.17 16:39:32

1. 产品概述

通过ID图谱构建功能,可以基于用户ID、手机号、设备号等ID信息,关联起同一用户多个账号的碎片化数据,整合企业多方数据,帮助营销或运营人员识别不同渠道的同一用户,实现精准营销及精细化运营。
同时,ID图谱构建功能还支持除了“人”之外,其他主体的ID-Mapping,通过配置多主体间的mapping关系,帮助用户分主体建立标签体系、进行分群或洞察应用,实现多主体场景的管理与分析。

2. 使用限制

仅集团管理员(即admin账号)可以配置ID图谱。

3. 应用场景

假设这样一个场景:

  1. 张三在购买A品牌的第一辆车时,通过手机号注册了会员;(收集到手机号、会员ID)

  2. 近期,张三在关注的A品牌微信公众号中看到新品车的宣传文章,通过小程序预约新品车试驾并留下了手机号(收集到微信渠道的AppID、OpenID)

  3. 后来,张三购买了新品车并线下提车。(收集到车辆ID)

在上述场景中,企业可以基于收集到的会员ID、手机号、微信渠道的AppID&OpenID、车辆ID等ID信息及不同ID间的关联关系,进行ID-Mapping,实现以下场景:

  • 用户画像场景: 构建客户画像,辅助判断客户的购买意向、生命周期阶段,挖掘运营可切入点。

  • 营销触达场景: 精准打标签,根据标签特征设计面向车主的针对性运营策略,例如在刚提车的阶段,新车主需要激活车联网功能,可以通过微信公众号、短信等渠道给张三发送会员流量包营销信息。

  • 人车匹配场景: 通过构建人、车双标签体系,发现即将到保修期的车辆,并通过人车匹配能力找到对应车主,给车主发送保修提醒,提升车主体验。

4. 名词解释
名词解释说明
One ID又称BaseID或基准ID,是主体的唯一身份ID。
主体又称实体/对象,常指可被运营增长或洞察分析的人/车/场等。
ID代表一个主体的一串序列号,例如手机号。
ID类型定义主体身份的数据信息,常指用户ID、设备ID等跟随主体的特定标识,可以理解成身份ID。
ID标识CodeID的唯一标识,可用英文+下划线的方式进行定义。
ID数据类型底层数据类型,默认可选择字符串型。
渠道识别标识用于标记可被下游识别的官方类型,如手机号Phone/IDFA等。
数据集在ID图谱构建模块,特指离线全量ID的数据集,目前仅可选Hive类型数据集。
全量更新每天存储全量数据,获取全量数据时将读取最新分区数据更新数据 P_date(日期分区) = 最新一天。
增量更新每天存储新增数据,获取全量数据时将读取历史全部分区更新数据 P_date(日期分区) <= 最新一天。
多主体转换关系通过配置多主体间的关系数据及转换策略,构建转换关系,常用于推荐、撮合及数据互通场景,如通过车的标签数据找到车对应的潜在客户信息。
5. 操作步骤

第一步:配置主体

说明

作用:定义一个全新的主体对象,又称实体/对象,常指可被运营增长或洞察分析的人/车/场等
结果:围绕每个主体会生成一套OneID数据内容,OneID(又称BaseID/基准ID)为主体的唯一身份ID

操作步骤如下:
1.点击 数据融合-ID图谱构建 。

2.选择 新建主体 按钮,并填写主体对应信息,包括:

  • 主体名称:主体可被理解识别的命名,如人/车。

  • 主体描述:主体可被详细理解的描述,如使用xx的用户表示人。

  • 主体类型:用于区分主体的分类标识,如人、车、店铺、商品等。

  • 主体头像:将根据选择的主体类型展示默认头像,此处头像会在主页及个体画像中展示标识。

第二步:配置ID类型

说明

作用:用于定义唯一主体的身份标识,包含标识的元信息及全部标识的数据
结果:用于OneID生成的最基础数据来源,理论每个ID需配置包含全部用户的数据(全量ID数据)

操作步骤如下:
1.点击主体后的 配置 按钮。

2.配置ID类型。在该页面中,点击 新建ID类型 ,在ID配置页面填写对应信息:

  • ID类型:单独一个ID还是多个ID组合而成,单一ID/组合ID。

  • ID名称:用于表示ID的命名。

  • ID描述:用于区分理解ID的描述信息。

  • ID标识Code:ID的唯一标识,可用英文+下划线的方式进行定义。

  • ID数据类型:底层数据类型,默认可选择字符串型。

  • 组合ID高级配置:通过维表来定义ID1可选的维度名称,用于圈选时进行分类选择,不会参与OneID的生成,如 App_ID + Uid构建组合ID,此时App_name可通过维表映射获得。

  • 渠道识别标识:用于标记可被下游识别的官方类型,如手机号Phone/IDFA等。

  • 是否加密:打开后,「用户分群」及「个体画像」将显示或下载加密结果。

  • 是否配置数据:开启后,可配置ID的全量数据源,配置完成后该ID才可在下一步「OneID配置」配置。

  • 数据来源:

    • 离线+实时数据:可同时配置离线全量数据和实时数据,相互修正。

    • 仅实时数据:无需配置离线数据,实时数据可通过「可视化建模」实时IDMapping算子实时生成OneID。

  • 数据集:离线全量ID的数据集,目前仅可选Hive类型数据集。

  • 更新方式:数据集数据的获取逻辑,如下

    • 全量:每天存储全量数据,获取全量数据时将读取最新分区数据更新数据 P_date(日期分区) = 最新一天。

    • 增量:每天存储新增数据,获取全量数据时将读取历史全部分区更新数据 P_date(日期分区) <= 最新一天。

  • ID类型对应字段: 该ID对应数据集中的字段。

第三步:配置OneID

说明

作用:通过ID的优先级及ID间的参考关系定义OneID的生成逻辑,是OneID最核心的配置
结果:最终产生符合标准的OneID数据

1. 离线One ID生成策略

操作步骤如下:
1.点击 数据融合-ID图谱构建-OneID配置 ,进入 离线One-ID生成策略 的配置页面;
2.选择合适的 OneID生成算法,目前支持 增强分段算法复用原有ID。

  • 增强分段算法 即在分段算法的基础上进行算法计算强化,在ID数量不唯一且用户量级在千万以上时推荐使用该算法;

  • 复用原有ID 即直接读取ID数据源去重结果作为OneID,如自身已有OneID产出无需二次加工,可选择“复用原ID”。注意:由于OneID系统约定使用数值类型数据,如非数值类型ID数据,生成的OneID均为0。


3.配置OneID识别参考关系。点击 添加参考关系 (注意此处配置的参考关系,只有在ID优先级中选用了才会生效),包括:

  • 关系数据集:构建参考关系的数据来源,往往是包含两个ID的映射维表数据集,目前仅支持Hive类型的数据集。

  • 日期分区字段:关系数据集中的日期分区字段。

  • 日期分区格式:分区字段对应的内容格式,支持yyyyMMdd、yyyy-MM-dd。

  • 更新方式:支持全量和增量更新。

    • 全量指的是:每天存储全量数据,获取全量数据时将读取最新分区数据更新数据 P_date(日期分区) = 最新一天;

    • 增量指的是:每天存储新增数据,获取全量数据时将读取历史全部分区更新数据 P_date(日期分区) <= 最新一天。

  • 构建关系的ID:基于数据集建立ID间的参考关系,先选ID再选ID对应数据集的字段。

  • 参考策略:ID间相互参考时,如存在参考ID是一对多的关系,为了参考最合理的ID对应的BaseID,则需要指定策略字段和策略逻辑,如不配置则采用系统默认策略。如「设备ID」参考「手机ID」时,数据上存在一个设备ID对应多个手机ID,此时可设置 最新 使用时间 的手机ID作为参考的手机ID,此时使用时间为策略字段,最新为策略逻辑。

4.配置ID优先级,即定义ID参与OneID生成的优先级顺序,按照优先级顺序依次参与生成OneID。支持用户通过拖拽的方式调整ID的优先级顺序。

  • OneID强制一对一:限制该ID的原始ID与最终OneID绝对一一映射,开启后不受参考关系影响。

  • OneID是否可变:限制该ID对应的OneID一旦生成后是否会发生改变,开启后将根据最新的优先级或参考关系改变。

  • 离线参考实时结果:限制实时产生的OneID是否需要离线进行修正,开启后,离线将直接参考复用实时产生的OneID;注:如ID的数据源仅实时数据,则该开关默认开启且不可关闭。

  • 参考关系:点击配置,可以配置该ID与其他ID的参考关系(此处仅可选择已配置的One ID识别参考关系,并且需要设定参考关系的优先级)。

  • 操作:支持删除当前ID,但已参与OneID生成,不可删除。

2. 实时OneID生成策略

说明

按照以下操作配置实时OneID生成策略后,用户就可以在可视化建模中使用实时ID- mapping算子生成实时OneID。

操作步骤如下:
1.点击 数据融合-ID图谱构建-OneID配置 ,进入 实时One-ID生成策略 的配置页面;
2.选择合适的 OneID生成算法,目前支持 增强分段算法复用原有ID。

  • 增强分段算法 即在分段算法的基础上进行算法计算强化,在ID数量不唯一且用户量级在千万以上时推荐使用该算法;

  • 复用原有ID 即直接读取ID数据源去重结果作为OneID,如自身已有OneID产出无需二次加工,可选择“复用原ID”。注意:由于OneID系统约定使用数值类型数据,如非数值类型ID数据,生成的OneID均为0。


3.配置ID优先级,当实时行为数据流中同时存在多个ID类型,将根据优先级顺序优先查询或生成高优先级ID类型对应的OneID,然后根据强制一对一规则判断OneID是否可以复用。

  • OneID强制一对一:限制该ID的原始ID与最终OneID绝对一一映射,开启后不受参考关系影响。

示例: 如实时数据中同时存在用户ID/设备ID,用户ID优先级高于设备ID,用户ID到BaseID设置强制一对一

  1. 先看用户ID是否生成过OneID (触发优先级规则)
    1. 如果生成过,则将用户ID的OneID作为实时流中用户ID及设备ID的共同OneID

    2. 如果没有生成过,然后再根据优先级看设备ID是否生成过OneID (触发优先级规则)

      1. 如果设备ID生成过,再看OneID是否绑定过其他用户ID

        1. 如果绑定过,则OneID无法被此数据流复用,重新生成一个新的OneID作为该条实时流的OneID (强制唯一规则)

        2. 如果没有绑定过,则OneID可作为该条实时流的OneID

      2. 如果设备ID未生成过,则新生成一个OneID作为该条实时流的OneID


4.配置实时数据上报渠道,支持的渠道包括:实时可视化建模、DataFinder、分群上传,开启对应渠道后,通过该渠道上报的实时数据将会参与OneID生成。

说明

多渠道同时上报时,根据上报的顺序参与OneID生成。

  • 实时可视化建模:消费实时数据,实时生成OneID,根据一个流内的ID及此处的优先级顺序依次生成OneID;

  • DataFinder上报:同时购买了DataFinder时,系统自动添加,DataFinder上报时会自动产生OneID,实时行为数据的全域打通;

  • 分群上报:开启后,分群中纯新的ID会直接生成新的OneID。

注意

  1. 分群上报数据参与One ID生成的功能非默认功能,如需要使用请在部署时开启;

  2. 由于该渠道上报数据的入口涉及的用户较多,可能上传脏数据导致OneID会乱,该渠道注意谨慎开启,开启后一旦产生脏数据暂不支持系统删除修正。

第四步:配置主体转换关系

说明

作用:通过配置多主体间的关系数据及转换策略构建转换关系,常用于推荐、撮合及资产复用场景,如通过车的标签数据找到车对应的潜在客户
结果:生成主体A到主体B的转换关系数据维表

操作步骤如下:
1.点击 数据融合-ID图谱构建 ,进入 主体转换关系配置 的页面,点击右上角的 配置 按钮。

2.点击 新建主体转换关系 ,填写对应信息:

  • 关系名称:用于表示转换关系的命名,如人车购买转换关系。

  • 关系数据集:构建转换关系的数据来源,目前仅支持Hive类型的数据集。

  • 日期分区字段:关系数据集中的日期分区字段。

  • 日期分区格式:分区字段对应的内容格式。

  • 更新方式:数据集数据的获取逻辑,如下

    • 全量:每天存储全量数据,获取全量数据时将读取最新分区数据更新数据 P_date(日期分区) = 最新一天

    • 增量:每天存储新增数据,获取全量数据时将读取历史全部分区更新数据 P_date(日期分区) <= 最新一天

  • 转换关系的主体:基于数据集建立两个主体间的转换关系,依次选择主体、主体ID及ID对应数据集字段。

  • 转换方式:主体间相互转换时是否需要基于数据获取全部转换主体数据,支持一对多、一对一,以及不允许转换。如选择「不允许转换」时,则转换关系在相应转换方向上不可用,如人->车设置「不允许转换」,则通过人的ID禁止转换成车。

  • 转换策略:主体间相互参考时,如设置了「一对一(根据策略获得唯一转换主体)」,但实际存在一对多关系时,需要根据策略选择最合适的转换主体,如不配置则随机选择一个。


当完成以上操作后,ID图谱构建即可完成所有配置啦。

第五步:ID-Mapping任务信息

点击 数据融合-ID图谱构建 ,进入 任务信息 页面。在该页面将展示所有ID-Mapping任务详情,用户可以查看对应任务的库表名、身份标识ID、创建时间、运行状态等。

  • 表头显示当前环境下的任务总览,包括总任务数、成功/失败数等。

  • 支持按「主体OneID任务」或「多主体关系任务」进行筛选。

  • 支持按任务类型、主体、多主体关系和运行状态进行筛选。

  • 任务类型包括:

    • OneID生成任务:一个主体一个任务,控制整体OneID的生成逻辑,是最核心且最先运行的任务,落地Hive表

    • ID数据同步任务:依赖OneID生成任务,将每个ID映射的BaseID(OneID)数据Hive表同步至Clickhouse,是下游标签等应用直接依赖的任务

    • 多主体关系生成:依赖OneID生成任务,将主体间的转换关系数据构建BaseID(OneID)到BaseID(OneID)的映射关系,落地Hive表

    • 多主体关系数据同步:依赖多主体关系生成任务,将主体间构建的BaseID映射关系Hive表数据同步Clickhouse,是下游主体转关关系应用直接依赖的任务


支持查看单个任务的运行视图和运行记录,并且支持单独重新运行此任务。

  • 「运行视图」页面,将显示该任务上游依赖的DAG以及各依赖任务的运行状态。

  • 「重新运行」将会重启该任务。

  • 「运行记录」页面,将显示该任务最近30天的任务执行情况。


点击右上角 运行 按钮,可以手动运行所有ID-Mapping任务(可能导致OneID改变)。

第六步:管理ID-Mapping

1. 删除ID

在ID配置页面,支持删除ID。

注意

  1. 集团及项目管理员、ID Mapping管理员有权限删除ID

  2. 系统联动的ID不可删除,例如Finder产品联动的ID

  3. 删除ID后,该ID绑定的OneID数据将在下次任务更新时被清空,一旦删除无法撤回

  4. 删除ID时,支持查看该ID的血缘信息,ID删除后下游任务可能会执行异常

  5. 删除ID后,OneID、多主体关系及在线服务影响如下:

    1. OneID配置:该ID与其他ID的参考关系会跟随删除,OneID生成逻辑改变;

    2. 多主体关系:依赖该ID的多主体转换关系会跟随删除。

    3. OneID在线服务:若该ID已开启在线服务,调用该ID的接口服务将执行失败,血缘中不会展示开放服务的接口,请内部确认该ID是否被调用。

2. IDM高级配置

授权IDM配置权限

点击右上角 高级配置-授权IDM配置权限 按钮,将跳转到项目中心,支持配置ID Mapping管理员,被授权者将有权限编辑ID图谱。

管理IDMapping在线服务配置

点击右上角 高级配置-管理IDMapping在线服务配置 按钮,将跳转到项目中心,支持对ID Mapping的主体及转换关系构建在线服务,用于高QPS低延迟的接口快速查询。

管理主体及可见范围

点击右上角 高级配置-管理主体及可见范围 按钮,将跳转到项目中心,支持对 主体和ID 进行 反向禁用(默认全部可用,勾选特定对象后可批量禁用)。

注意

该配置为集团层面配置,禁用后将对该用户访问各项目时生效。

  • 配置主体资源权限。勾选资源后,点击「批量禁用」,弹窗中选择禁用的对象。(仅支持按用户筛选)

  • 配置ID类型资源权限。勾选资源后,点击「批量禁用」,弹窗中选择禁用的对象。(支持按用户、用户组、角色筛选)

设置底表生命周期

IDMapping任务底层涉及数据生产、数据同步过程,用户可以设置底表存储的生命周期天数,以节省存储资源。

说明

  • 天数:最小14天,最多365天,仅支持整数输入

  • 如有OneID变更后回刷需求,可根据回刷需求设置合理周期

3. 查看ID血缘及下游

ID图谱构建中,支持右键单击ID去查看ID详情及下游,支持查看下游依赖的血缘视图。

4.OneID数据修正

此功能非默认功能,如需使用需要在部署时开启。

基于完整的ID血缘体系,ID图谱构建模块提供数据自动修正的能力,可以将历史的OneID修正为最新的OneID。

数据修正范围:

  • 可视化建模任务:包含IDM算子且开启回刷开关的任务、注册为数据档案且包含IDM算子的任务

  • 数据档案:行为/明细数据档案

  • 标签:不支持回刷修正,如涉及周粒度/月粒度大周期任务建议更改为日粒度

  • 分群:不支持回刷修正,如涉及周粒度/月粒度大周期任务建议更改为日粒度

  • DataFinder行为数据:包含Finder行为数据和属性数据

    • 注意:DataFinder独立部署时,不支持OneID数据修正

应用场景说明:

场景1: 存在用户,第一天匿名登陆,第二天改为实名登陆,此时需要串联用户的行为链路

  • ID-Mapping配置:手机号/设备号,手机号优先级 > 设备号,设备号参考手机号

  • 第一天的情况:匿名登陆,只有设备号1信息,此时对应 设备号1 = OneID1

  • 第二天的情况:实名登陆,此时有了手机号1 +设备号1信息,设备号参考手机号,此时手机号1=设备号1 = OneID2

  • 问题:第一天的行为是围绕 OneID1 记录的,第二天的行为是围绕 OneID2 记录的,导致用户两天的行为无法串联分析转化行为路径

场景2:ID-Mapping配置改变,基于场景1,此时要以设备号为业务更高优先级的ID,变更IDM配置

  • ID-Mapping配置变更前:手机号/设备号,手机号优先级 > 设备号,设备号参考手机号

  • ID-Mapping配置变更后:手机号/设备号,手机号优先级 < 设备号,手机号参考设备号

  • 变更前:手机号 = 设备号 = OneID1,基于手机号生成的OneID1

  • 变更后:手机号 = 设备号 = OneID2,基于设备号生成的OneID2

  • 问题:同上,涉及行为数据/业务明细数据等历史数据无法和最新数据串联


基于上述场景的解决方案如下:
基于完整的ID血缘体系,IDM提供数据自动修正的产品功能,可以将历史的OneID修正为最新的OneID。
方案逻辑: 每天定时唤起任务进行数据更新回刷

功能限制:

  • 资源风险:每天定时唤起任务会导致任务量增加,由此可能带来资源消耗增加

  • 修正周期风险:支持最多3天的数据修正,更长周期修正会增加资源消耗和任务稳定性风险,需咨询运维变更

数据修正范围:

  • 可视化建模任务:包含IDM算子且开启回刷开关的任务、注册为数据档案且包含IDM算子的任务

  • 数据档案:行为/明细数据档案

  • 标签:不支持回刷修正,如涉及周粒度/月粒度大周期任务建议更改为日粒度

  • 分群:不支持回刷修正,如涉及周粒度/月粒度大周期任务建议更改为日粒度

  • DataFinder行为数据:包含DataFinder行为数据和属性数据

    • 注意: DataFinder独立部署时,不支持OneID数据修正

操作步骤如下:

步骤功能入口操作说明操作截图

1-必选

ID图谱构建 - OneID配置

  1. 点击主体名称更多按钮,点击【设置OneID修正范围】唤起配置入口

  2. 进入弹窗配置回刷的周期,最多支持3天回刷

超出3天会有额外的人力和资源成本评估,需要单独评估


2-可选可视化建模(离线)-IDMapping算子1. 使用IDMapping算子构建离线任务时,可以配置是否需要回刷,由此决定任务要不要定时回刷以修正OneID数据

常见问题

  1. 数据档案哪些数据支持OneID修正,在哪里设置?

    1. 数据档案默认不会构建任务生产数据,只是对数据集打标,因此大多数场景无需回刷

    2. 数据档案历史客户会因为存在校验数据集格式规范去构建系统转化的可视化建模任务,此时会自动包含在OneID修正的任务列表,会定时执行修正回刷

    3. 数据档案仅明细数据和行为数据需要进行OneID修正回刷,属性数据和维度数据档案每天获取最新分区数据,无需进行修正回刷

  2. OneID数据修正是什么时候执行的?

    1. OneID数据修正是辅助任务,在当天最新任务执行之后唤起OneID数据修正任务,如可视化建模任务会优先保证最新一天实例任务的执行,执行成功后调起任务回刷任务修正OneID数据
  3. DataFinder独立部署时,是否支持OneID修正能力?

    1. 暂时不支持