You need to enable JavaScript to run this app.
导航

行业模板

最近更新时间2023.05.09 15:34:55

首次发布时间2023.01.05 13:50:13

概述

一直以来,特征开发都是个过程复杂,门槛较高的过程。从下面流程图不难看出,数据处理、原始特征、特征、样本每一步都需要大量的配置和调试工作。但在大多数情况下,每个行业特征开发所依赖的数据和产出的特征及样本都是类似的。由于这种相似性的存在,我们可以将能够复用的部分预置成模板,您在使用时就可以基于模板快速地完成特征的开发了。
图片
目前,我们在特征工程的预置行业模板中预置了数据中间表、数据处理任务、原始特征、特征和样本。模板可以在特征开发的任意阶段一键启用,启用后会自动生成模板包含的所有内容,创建好特征及一个批式样本。这样就大大降低了特征工程的上手门槛,缩短了开发时间。而当模板所包含的内容无法满足您的特征及样本的需求时,您既可以基于模板预置的数据、原始特征进行自定义扩展,也可以一直不启用模板,完全自助式的进行特征开发。
下面我们按不同模块为大家介绍模板中包含的内容。

数据表 & 数据处理任务

启用模板后会创建如下数据表及相关的数据处理任务,它们的创建人是“系统”。您可以查看这些表和任务的配置信息,预览表内数据,但无法进行编辑和归档操作。
为区分基于模板创建的内容和您自己创建的内容,模板创建内容的名称会加上“tpl_”的前缀。同时您创建内容时,名称也无法以“tpl_”开头。模板创建的原始特征、特征和样本也有类似的设定。

类型

表名

关联任务名

补充说明

表格类

tpl_hive_base_user_table

tpl_hive_base_user_task

数据处理任务对天级用户表进行预处理并存储于关联的批式用户表,可作为离线数据源

tpl_hive_base_item_table

tpl_hive_base_item_task

数据处理任务对天级用户基础信息进行预处理并存储于关联的批式物品表,可作为离线数据源

tpl_hive_base_parent_item_table

tpl_hive_base_parent_item_task

对天级父物品基础信息进行预处理并存储于关联的批式父物品表,可作为离线数据源

tpl_hive_base_bhv_table

tpl_hive_base_bhv_task

对天级行为信息进行预处理并存储于对应的批式行为表,可作为离线数据源

窗口聚合类

tpl_hive_user_days_window_agg_table

tpl_hive_user_days_window_agg_task

用户天级窗口聚合类特征,可作为离线数据源

tpl_hive_item_days_window_agg_table

tpl_hive_item_days_window_agg_task

物品天级窗口聚合类特征,可作为离线数据源

tpl_hive_parent_item_days_window_agg_table

tpl_hive_parent_item_days_window_agg_task

父物品天级窗口聚合类特征,可作为离线数据源

消息队列类

tpl_kv_base_user_table(同 kv 导入类表)

tpl_mq_base_user_task

对实时用户基础信息进行预处理

tpl_kv_base_item_table(同 kv 导入类表)

tpl_mq_base_item_task

对实时父物品基础信息进行预处理

tpl_kv_base_parent_item_table(同 kv 导入类表)

tpl_mq_base_parent_item_task

父物品侧实时基础特征

kv 导入类

tpl_kv_base_user_table

tpl_kv_base_user_task

将在线用户基础信息预处理后保存于在线用户基数数据表,可作为在线数据源

tpl_kv_base_item_table

tpl_kv_base_item_task

将在线物品基础信息预处理后保存于在线物品基数数据表,可作为在线数据源

tpl_kv_base_parent_item_table

tpl_kv_base_parent_item_task

将在线父物品基础信息预处理后保存于在线父物品基数数据表,可作为在线数据源

tpl_kv_user_days_window_agg_table

tpl_kv_user_days_window_agg_task

把离线存储的用户天级窗口聚合类特征原信息导入到键值类表,可作为在线数据源

tpl_kv_item_days_window_agg_table

tpl_kv_item_days_window_agg_task

把离线存储的物品天级窗口聚合类特征原信息导入到键值类表,可作为在线数据源

tpl_kv_parent_item_days_window_agg_table

tpl_kv_parent_item_days_window_agg_task

把离线存储的父物品天级窗口聚合类特征原信息导入到键值类表,可作为在线数据源

注意:

  • 目前模板中不包含流式样本,也暂不支持天级以内粒度的窗口聚合类的表及关联的数据处理任务。

原始特征

原始特征保存了创建特征时所需的元信息,便于基于相同的数据源或类别批量创建特征,提高特征的创建效率。
模板预置了3个行业的常见原始特征。所有模板生成的原始特征会自动添加“tpl_”前缀,该前缀为保留字,自定义创建特征时不可使用。
不同行业包含的原始特征按类型分布见下表。

行业

用户

物品

父物品

上下文

总计

电商

约 300 个

约 50 个

约 70 个

约 10 个

约 450 个

长视频

约 210 个

约 70 个

约 140 个

约 20 个

约 450 个

内容社区

约 220 个

约 70 个

约 20 个

约 30 个

约 340 个

特征

特征基于原始特征,通过配置抽取方法得到可用于样本及线上预估所需的特征数据。
模板预置了3个行业的常见特征。所有模板生成的特征会自动添加“tpl_fc_”前缀,该前缀为保留字,自定义创建特征时不可使用。
如有更多特征期望预置到模版内,可以反馈给您的客户成功经理或算法、交付同学。
不同行业包含的全部特征类型概览见下表。实际在启用模板时生成的特征取决于在数据管理中进行数据表定义时勾选了的字段(数据表定义可参考:数据管理 -> 数据表定义)。另外,若您传入了数据表定义模块中未包含在 schema 的字段时,目前由于我们无法识别你自定义的这些字段的业务含义,无法帮您自动添加到模板生成的内容中。若您需要使用这部分字段,目前您需要执行创建创建数据表、数据处理任务、原始特征及特征,可能也需要重新创建样本。

行业

电商

长视频

内容社区

用户基础类

包含

包含

包含

用户天级窗口聚合类

包含

包含

包含

用户天级内窗口聚合类

不包含

不包含

不包含

物品基础类

包含

包含

包含

物品天级窗口聚合类

不包含

包含

不包含

物品天级内窗口聚合类

不包含

不包含

不包含

父物品基础类

包含

包含

包含

父物品天级窗口聚合类

包含

包含

不包含

父物品天级内窗口聚合类

不包含

不包含

不包含

context类

包含

包含

包含

match类

不包含

包含

包含

combine 类

包含

不包含

不包含

总计

约 470 个

约 460 个

约 350 个

下面是每个行业按特征类型分组后的特征信息概览。

电商行业

特征类别

数量

概述

用户类特征

约 250 个

包含用户基础信息相关的特征,如:id、年龄、性别、设备id、会员等级、国家、省份、城市、城区、标签等,以及与物品交互的点击、收藏、加购、转化(购买)等行为的次数(cp)以及近期交互对象列表(recent)等统计类信息。例如:tpl_fc_user_id, tpl_fc_user_age, tpl_fc_user_gender, tpl_fc_user_device_id, tpl_fc_user_membership_level, tpl_fc_user_tags_list, tpl_fc_user_subscriber_type, tpl_fc_user_1d_goods_id_cart_score_list, tpl_fc_user_1d_goods_id_click_recent_list_dup, tpl_fc_user_1d_goods_brand_conversion_recent_list_dup, ...

物品类特征

约 45 个

包含商品基础信息相关的特征,如:id、标题、作者、类别、语种、价格、更新时间等,以及点赞、评论、分享等行为类统计特征。例如:tpl_fc_goods_id, tpl_fc_goods_spu_id, tpl_fc_goods_status, tpl_fc_goods_cate_1, tpl_fc_goods_brand, tpl_fc_goods_title, tpl_fc_goods_current_price, tpl_fc_price_reduction, tpl_fc_goods_comment_cnt, tpl_fc_goods_share_cnt, tpl_fc_goods_praise_cnt_1000, ...

父物品类特征

约 70 个

包含商品服务基础信息相关的特征,如:id、名称、品牌、评分、店铺id、更新时间等,以及点击、评论、点赞、分享等行为类统计特征。例如:tpl_fc_parent_goods_id, tpl_fc_parent_goods_status, tpl_fc_parent_goods_brand, tpl_fc_parent_goods_spu_id, tpl_fc_parent_goods_rating, tpl_fc_parent_goods_share_cnt, tpl_fc_parent_goods_comment_cnt, tpl_fc_pitem_1d_tpl_fc_goods_title_terms_conversion_score_list, ...

上下文类基础特征

约 20 个

包含行为发生时的相关上下文信息,如:页面、发生时间等。例如:tpl_fc_page, tpl_fc_bhv_time_hourofday, tpl_fc_bhv_time_periodofday, tpl_fc_bhv_time_dayofweek, ...

Combine 类特征

约 10 个

包含用户id与商品价格、售卖数量、所在页面、品牌、类别及spm等交叉特征。例如:tpl_fc_user_id-tpl_fc_goods_current_price, tpl_fc_user_id-tpl_fc_page, tpl_fc_user_id-tpl_fc_goods_brand, ...

内容社区

特征类别

数量

概述

用户类特征

约 300 个

包含用户基础信息相关的特征,如:id、年龄、性别、设备id、会员等级、国家、省份、城市、城区、标签、注册时间等,以及与物品交互的点击、评论、收藏、点赞、查询等行为的次数(cp)以及近期交互对象列表(recent)等统计类信息。例如:tpl_fc_user_id, tpl_fc_user_age, tpl_fc_user_gender, tpl_fc_user_device_id, tpl_fc_user_membership_level, tpl_fc_user_tags_list, tpl_fc_user_subscriber_type, tpl_fc_user_last_login_time_month, tpl_fc_user_st_1d_doc_id_click_cp, tpl_fc_user_st_1d_doc_cate2_comment_recent, ...

物品类特征

约 60 个

包含文章基础信息相关的特征,如:id、标题、作者、类别、语种、价格、更新时间等,以及点赞、评论、分享、收藏等行为类统计特征。例如:tpl_fc_doc_id, tpl_fc_doc_title_terms, tpl_fc_doc_type, tpl_fc_doc_cate1, tpl_fc_doc_cate2, tpl_fc_doc_cate3, tpl_fc_doc_author_id, tpl_fc_doc_tags, tpl_fc_doc_share_cnt_10, tpl_fc_doc_collect_cnt_10, tpl_fc_doc_praise_cnt_10, ...

父物品类特征

约 30 个

包含父物品基础信息相关的础特征(类似物品类特征,此处略)。例如:tpl_fc_parent_doc_id, tpl_fc_parent_doc_title_terms, tpl_fc_parent_doc_type, tpl_fc_parent_doc_cate1, tpl_fc_parent_doc_cate2, tpl_fc_parent_doc_cate3, tpl_fc_parent_doc_author_id, tpl_fc_parent_doc_tags, tpl_fc_parent_doc_source_id, tpl_fc_parent_doc_keyword, ...

上下文类基础特征

约 30 个

包含行为发生时的相关上下文信息,如:页面、平台、操作系统、客户端版本、所属网络、设备型号等。例如:tpl_fc_page, tpl_fc_platform, tpl_fc_os, tpl_fc_os_version, tpl_fc_client_version, tpl_fc_network, tpl_fc_device_model, tpl_fc_country, tpl_fc_province, tpl_fc_city, tpl_fc_district, tpl_fc_area, ...

Match 类特征

约 10 个

包含父内容与相关内容的类型、标签、来源id、关键字、作者id等 match 类特征。例如:tpl_fc_parent_doc_title_terms_has, tpl_fc_parent_doc_type_has, tpl_fc_parent_doc_source_id_has, tpl_fc_parent_doc_keyword_has, ...

长视频/IPTV

特征类别

数量

概述

用户类特征

约 100 个

包含用户基础信息相关的特征,如:id、年龄、性别、设备id、会员等级、国家、省份、城市、城区、标签、注册时间等,以及与物品交互的点击、播放等行为的次数(cp)以及近期交互物品列表(recent)等统计类特征。例如:tpl_fc_user_id, tpl_fc_user_age, tpl_fc_user_gender, tpl_fc_user_device_id, tpl_fc_user_membership_level, tpl_fc_user_tags_list, tpl_fc_user_subscriber_type, tpl_fc_user_last_login_time_month, tpl_fc_user_lt_item_id_play_recent, tpl_fc_user_lt_item_id_play_cp, ...

物品类特征

约 60 个

包含视频基础信息相关的特征,如:id、标题、作者、类别、语种、价格、更新时间等,以及曝光、点击、播放等行为类统计特征。例如:tpl_fc_item_id, tpl_fc_item_name_terms, tpl_fc_item_rating, tpl_fc_item_category_list1, tpl_fc_item_author_list, tpl_fc_item_tags_list, tpl_fc_item_id_st_1d_count_log1p_exposure, tpl_fc_item_current_price_10, tpl_fc_item_keyword, ...

父物品类特征

约 90 个

包含父物品基础信息相关的础特征(类似物品类特征,此处略),以及与相关物品有关的点击、播放次数(cp)和近期高频交互物品列表(recent)等统计类特征。例如:tpl_fc_parent_item_id, tpl_fc_parent_item_name, tpl_fc_parent_item_video_type, tpl_fc_parent_item_category_list1, tpl_fc_parent_item_author_list, tpl_fc_parent_item_tags_list, tpl_fc_parent_item_region_list, tpl_fc_parent_item_actor_list, tpl_fc_parent_item_lt_item_id_click_recent, tpl_fc_parent_item_lt_item_id_play_recent, tpl_fc_parent_item_st_30d_item_id_play_cp, ...

上下文类基础特征

约 25 个

包含行为发生时的相关上下文信息,如:页面、继续播放、设备id等。例如:page,device_id, tpl_fc_bhv_play_type, tpl_fc_bhv_continue_play, ...

Match 类特征

约 10 个

包含父物品与视频类型、视频名称、视频类别、导演、演员列表,以及点击数量、最近点击等 match 类特征。例如:tpl_fc_pitem_30d_item_id_click_score_list_has_match, tpl_fc_parent_item_author_list_has_match, tpl_fc_parent_item_author_list_has_match, ...

样本

模板创建的样本信息如下:

  • 样本名称:tpl_batch_sample
  • 样本类型:批式
  • 场景类型:猜你喜欢
  • 行为数据表:tpl_hive_base_bhv_table
  • 特征来源:离线特征
  • 选择特征:“相关推荐”场景相关特征之外的所有模版特征
  • 辅助信息:对应选取 tpl_hive_base_bhv_table 的对应字段
    样本默认不开启追新,如需手动开启。

常见问题

Q: 支持模板的特征工程与原自动化特征工程相比有什么不同?
A: 详见下表。

自动化特征工程

包含预置模板的特征工程

数据处理

预置表和任务,不可见

预置表和任务,可见但不可编辑、删除
可以自定义创建数据表和数据处理任务

原始特征

预置原始特征,不可见

预置原始特征,可见但不可编辑、删除
可以自定义创建更多原始特征

特征

预置特征,不可见

预置特征,可见但不可编辑、删除
可以将特征发布到线上,在可发布过程中补充缺失的在线数据源
可以自定义创建更多特征

样本

预置样本,不可见
流式样本:自动使用全量模板特征生成;
批式样本:

  • 天级:支持一个默认样本且不可更改;
  • 小时级:开启流式样本后会自动生成且不可更改;

预置一个批式样本,可见也可以编辑,不可删除
可以自定义创建更多的批式及流式样本(流式样本生成方式可参考:样本管理 -> 新建样本

Q: 我的应用已经使用了自动化特征工程,可以切换为支持模板的特征工程么?
A: 可以。我们会安排将原自动化特征工程的项目逐步切换为支持模板的特征工程,如果您的需求比较迫切,可以将您的需求告知您的客户成功经理,我们会尽快为您评估。

Q: 我可以把自己创建的特征保存为模板么?
A: 暂不支持。您可将需求反馈给您的客户成功经理,我们会尽快评估并反馈。

Q: 模板内容更新后,已经启用模板的项目会应用更新的内容么?该如何操作?
A: 会的,系统会在有新版模板时进行无感更新。如有新增特征,您可按需进行栏位关联或添加到样本当中。

Q: 启用模板后是否支持停用?
A: 暂时不支持停用。如果您不再使用模板创建的内容,可以停止模板创建的样本追新。

Q: 我已经在没有启用模板时创建了一些内容,这个时候启用模板会影响我已经创建的内容么?
A: 不会影响。启用模板时创建的内容名称都会包含特定的前缀,这些前缀您创建内容时无法使用。所以不会影响您已经创建的内容。

Q:行业模板使用时有什么注意事项?
A:若一开始样本开启追新时没有添加父物品相关特征,后续希望增加父物品相关特征时,需要先回溯样本,当所有可用日期样本都已生成后再添加父物品相关特征。如果没有先回溯样本,或者在样本回溯期间增加了父物品相关特征,则会导致样本任务中止。如果出现了这种情况,请联系客服或客户成功经理,我们会帮您解决。该问题也会在后续迭代中进行优化。