You need to enable JavaScript to run this app.
导航

数据融合常见问题

最近更新时间2023.05.06 17:45:01

首次发布时间2022.03.30 16:36:45

Q:通过批量新建的方式修改事件或事件属性信息,上传信息是否会覆盖原来所有配置?

不会,会过滤掉重复项,补充之前缺少的。

Q:CDP支持哪些数据连接?

支持MySQL、HIVE、ClickHouse等数据库连接、API数据连接、流式数据(Kafka数据)接入、本地文件数据上传、巨量引擎及巨量千川数据接入。详见《数据连接说明》

Q:当ID存在一对多的情况,如何进行Mapping?

可以通过配置策略字段来进行更合理的Mapping,例如:手机号参照会员ID,当一个手机号对应多个会员ID的时候,可以配置生成策略,选择绑定时间,使用最新绑定的会员ID的基准ID作为结果,来实现更合理的ID mapping。

Q:CDP的基准ID(即OneID)是每天都按照生成策略和规则重新生成的吗?

可以在IDMapping配置时自行配置,CDP的ID图谱构建中有「基准ID是否可变」的按钮,默认可变,即按照生成策略每天都进行重新生成。如果希望某些ID类型基准ID生成后保持不变,则可以关闭此开关。

Q:多产品联合部署的时候,Finder的数据如何接入CDP?

联合部署时,CDP和finder底层是一份数据,CDP中会内置finder的行为&属性数据,供CDP系统应用。注意:CDP与Finder目前仅在私有化部署情况下打通。

Q:CDP元数据登记中要求的行为/明细/属性数据格式是怎样的?是否有数据样例。

用户属性是用户状态的记录,由指定的事件赋值/更新,用户属性的定义来源不同,由各个业务系统定义(含cdp)。包含用户的基本信息(性别、年龄...)和业务场景信息(会员id、积分...)。
数据格式样例如下:

字段数据类型示例对应配置
base_idint23456,用户ID唯一用户ID
sexstring
ageint30
hobbyarray篮球、足球
total_accountfloat364.55
birthdaydate1991/2/23

行为数据是“谁,在什么时间,在什么地点,对什么内容,做了什么事情,产生了多少结果”, 行为数据源包括离线和实时的用户行为数据,用于用户标签的构建与人群的圈选,常见行为数据如:

  • 小程序、app等用户实时行为数据
  • 为方便快速圈人而设计的通过明细数据转换的离线行为数据

行为数据格式样例如下:

字段数据类型示例对应配置
base_idint23456,用户ID唯一用户ID
timebigint事件发生时间戳,1627526641894行为时间
eventstring行为事件名称, ViewProduct行为事件
projectstring公共参数,tiktok_test
params_stringmap(string,string)事件参数(文本型),province行为参数
params_intmap(string,int)事件参数(整数型),session_duration行为参数
params_floatmap(string,float)事件参数(浮点型),custom_screen_height行为参数

明细数据是业务事实数据,主要用于标签构建和圈人,支持筛选字段筛选、聚合、条件判断(聚合方式支持总次数、求和、平均值、最大值、最小值)。
数据样例格式如下:

字段数据类型示例对应配置
order_idint47583
order_timetime2021/9/27 9:12
base_idint23456,用户ID不唯一,有多条用户订单记录用户ID
feefloat45.34
typestring0代表实时单,1代表预约单
bizstring0代表经济,1代表舒适,2代表豪华

Q:可视化输出数据集,存储配置选项该如何选择?

如果该数据集作为最终数据集,用于【元数据登记】或者【可视化查询】,建议选择 ClickHouse 的存储,如果该数据集只是用来进行中间结果的存储,或者与其他其他数据集进行关联操作,建议选择 Hive 的存储方式,Hive 中分区统一使用 p_date 字段,数据类型为 string,ClickHouse 中分区统一使用 p_date 字段,数据类型为 Date,ClickHouse 存储中,对于应用到【元数据登记】的数据集,排序字段、抽样字段、分片字段统一选择【base_id】,分区 p_date,生命周期根据需要进行设置,一般默认即可。

Q:''增量抽取''的逻辑?

每天按照时间戳的形式对增量数据进行抽取,增量字段无时间的更新的数据在当天就不做抽取。

Q:手动触发idm任务后相关下游任务并未重新执行?

当天分区已经运行成功的任务,再次触发上游任务,下游已成功的任务是不会重新执行的

Q: 配置 ID 生成策略时,该 ID 与基准 ID 强制一对一怎么理解?

如果希望某些 ID 类型只要原始 ID 不同,生成的基准 ID 必然不同则可打开此开关,例如会员号生成基准ID时设定为参考手机号,如果有其他会员 ID 通过此手机号已经生成过基准 ID,则此会员号不会复用已有基准ID,而是会重新生成。

Q:配置 ID 生成策略时,基准 ID 是否可变怎么理解?

默认打开,每天按照生成策略重新生成基准 ID,之所以基准 ID 会变是因为,基准 ID 是基于依赖关系生成的,重要的 ID 类型会放在前面,如果当天的数据重要 ID 还没进来,则根据次重要 ID 来生成基准 ID,如果第二天重要 ID 数据过来了,则基准 ID 会重新生成。

Q:AI算子/分类/聚类/回归算子运行失败原因汇总

  1. AI算子运行要求行数大于200行

  2. 分类/回归算子的标签列去重的枚举值应该不超过总行数的1/3

  3. 分类算法,标签列的枚举值不能过多,建议50分类以内,过多会导致评估的类别没有参与算法训练

  4. 同时,所有的特征列不能都一样

  5. 某一列的特征值,不能全为null

  6. spark-catboost目前开源的版本,不支持一个spark-session里面同时运行两个任务。同时需要增加高级参数,spark.task.cpus,值和spark.executor.cores的值一样

  7. 除了catboost和xgboost的特征列做了优化,支持选string/array/map,其他的AI算子特征列只支持选择数字类型(int,double,float,long,short等)