最近更新时间:2023.05.09 15:34:55
首次发布时间:2023.01.05 13:50:13
一直以来,特征开发都是个过程复杂,门槛较高的过程。从下面流程图不难看出,数据处理、原始特征、特征、样本每一步都需要大量的配置和调试工作。但在大多数情况下,每个行业特征开发所依赖的数据和产出的特征及样本都是类似的。由于这种相似性的存在,我们可以将能够复用的部分预置成模板,您在使用时就可以基于模板快速地完成特征的开发了。
目前,我们在特征工程的预置行业模板中预置了数据中间表、数据处理任务、原始特征、特征和样本。模板可以在特征开发的任意阶段一键启用,启用后会自动生成模板包含的所有内容,创建好特征及一个批式样本。这样就大大降低了特征工程的上手门槛,缩短了开发时间。而当模板所包含的内容无法满足您的特征及样本的需求时,您既可以基于模板预置的数据、原始特征进行自定义扩展,也可以一直不启用模板,完全自助式的进行特征开发。
下面我们按不同模块为大家介绍模板中包含的内容。
启用模板后会创建如下数据表及相关的数据处理任务,它们的创建人是“系统”。您可以查看这些表和任务的配置信息,预览表内数据,但无法进行编辑和归档操作。
为区分基于模板创建的内容和您自己创建的内容,模板创建内容的名称会加上“tpl_”的前缀。同时您创建内容时,名称也无法以“tpl_”开头。模板创建的原始特征、特征和样本也有类似的设定。
类型 | 表名 | 关联任务名 | 补充说明 |
---|---|---|---|
表格类 | tpl_hive_base_user_table | tpl_hive_base_user_task | 数据处理任务对天级用户表进行预处理并存储于关联的批式用户表,可作为离线数据源 |
tpl_hive_base_item_table | tpl_hive_base_item_task | 数据处理任务对天级用户基础信息进行预处理并存储于关联的批式物品表,可作为离线数据源 | |
tpl_hive_base_parent_item_table | tpl_hive_base_parent_item_task | 对天级父物品基础信息进行预处理并存储于关联的批式父物品表,可作为离线数据源 | |
tpl_hive_base_bhv_table | tpl_hive_base_bhv_task | 对天级行为信息进行预处理并存储于对应的批式行为表,可作为离线数据源 | |
窗口聚合类 | tpl_hive_user_days_window_agg_table | tpl_hive_user_days_window_agg_task | 用户天级窗口聚合类特征,可作为离线数据源 |
tpl_hive_item_days_window_agg_table | tpl_hive_item_days_window_agg_task | 物品天级窗口聚合类特征,可作为离线数据源 | |
tpl_hive_parent_item_days_window_agg_table | tpl_hive_parent_item_days_window_agg_task | 父物品天级窗口聚合类特征,可作为离线数据源 | |
消息队列类 | tpl_kv_base_user_table(同 kv 导入类表) | tpl_mq_base_user_task | 对实时用户基础信息进行预处理 |
tpl_kv_base_item_table(同 kv 导入类表) | tpl_mq_base_item_task | 对实时父物品基础信息进行预处理 | |
tpl_kv_base_parent_item_table(同 kv 导入类表) | tpl_mq_base_parent_item_task | 父物品侧实时基础特征 | |
kv 导入类 | tpl_kv_base_user_table | tpl_kv_base_user_task | 将在线用户基础信息预处理后保存于在线用户基数数据表,可作为在线数据源 |
tpl_kv_base_item_table | tpl_kv_base_item_task | 将在线物品基础信息预处理后保存于在线物品基数数据表,可作为在线数据源 | |
tpl_kv_base_parent_item_table | tpl_kv_base_parent_item_task | 将在线父物品基础信息预处理后保存于在线父物品基数数据表,可作为在线数据源 | |
tpl_kv_user_days_window_agg_table | tpl_kv_user_days_window_agg_task | 把离线存储的用户天级窗口聚合类特征原信息导入到键值类表,可作为在线数据源 | |
tpl_kv_item_days_window_agg_table | tpl_kv_item_days_window_agg_task | 把离线存储的物品天级窗口聚合类特征原信息导入到键值类表,可作为在线数据源 | |
tpl_kv_parent_item_days_window_agg_table | tpl_kv_parent_item_days_window_agg_task | 把离线存储的父物品天级窗口聚合类特征原信息导入到键值类表,可作为在线数据源 |
注意:
原始特征保存了创建特征时所需的元信息,便于基于相同的数据源或类别批量创建特征,提高特征的创建效率。
模板预置了3个行业的常见原始特征。所有模板生成的原始特征会自动添加“tpl_”前缀,该前缀为保留字,自定义创建特征时不可使用。
不同行业包含的原始特征按类型分布见下表。
行业 | 用户 | 物品 | 父物品 | 上下文 | 总计 |
---|---|---|---|---|---|
电商 | 约 300 个 | 约 50 个 | 约 70 个 | 约 10 个 | 约 450 个 |
长视频 | 约 210 个 | 约 70 个 | 约 140 个 | 约 20 个 | 约 450 个 |
内容社区 | 约 220 个 | 约 70 个 | 约 20 个 | 约 30 个 | 约 340 个 |
特征基于原始特征,通过配置抽取方法得到可用于样本及线上预估所需的特征数据。
模板预置了3个行业的常见特征。所有模板生成的特征会自动添加“tpl_fc_”前缀,该前缀为保留字,自定义创建特征时不可使用。
如有更多特征期望预置到模版内,可以反馈给您的客户成功经理或算法、交付同学。
不同行业包含的全部特征类型概览见下表。实际在启用模板时生成的特征取决于在数据管理中进行数据表定义时勾选了的字段(数据表定义可参考:数据管理 -> 数据表定义)。另外,若您传入了数据表定义模块中未包含在 schema 的字段时,目前由于我们无法识别你自定义的这些字段的业务含义,无法帮您自动添加到模板生成的内容中。若您需要使用这部分字段,目前您需要执行创建创建数据表、数据处理任务、原始特征及特征,可能也需要重新创建样本。
行业 | 电商 | 长视频 | 内容社区 |
---|---|---|---|
用户基础类 | 包含 | 包含 | 包含 |
用户天级窗口聚合类 | 包含 | 包含 | 包含 |
用户天级内窗口聚合类 | 不包含 | 不包含 | 不包含 |
物品基础类 | 包含 | 包含 | 包含 |
物品天级窗口聚合类 | 不包含 | 包含 | 不包含 |
物品天级内窗口聚合类 | 不包含 | 不包含 | 不包含 |
父物品基础类 | 包含 | 包含 | 包含 |
父物品天级窗口聚合类 | 包含 | 包含 | 不包含 |
父物品天级内窗口聚合类 | 不包含 | 不包含 | 不包含 |
context类 | 包含 | 包含 | 包含 |
match类 | 不包含 | 包含 | 包含 |
combine 类 | 包含 | 不包含 | 不包含 |
总计 | 约 470 个 | 约 460 个 | 约 350 个 |
下面是每个行业按特征类型分组后的特征信息概览。
特征类别 | 数量 | 概述 |
---|---|---|
用户类特征 | 约 250 个 | 包含用户基础信息相关的特征,如:id、年龄、性别、设备id、会员等级、国家、省份、城市、城区、标签等,以及与物品交互的点击、收藏、加购、转化(购买)等行为的次数(cp)以及近期交互对象列表(recent)等统计类信息。例如:tpl_fc_user_id, tpl_fc_user_age, tpl_fc_user_gender, tpl_fc_user_device_id, tpl_fc_user_membership_level, tpl_fc_user_tags_list, tpl_fc_user_subscriber_type, tpl_fc_user_1d_goods_id_cart_score_list, tpl_fc_user_1d_goods_id_click_recent_list_dup, tpl_fc_user_1d_goods_brand_conversion_recent_list_dup, ... |
物品类特征 | 约 45 个 | 包含商品基础信息相关的特征,如:id、标题、作者、类别、语种、价格、更新时间等,以及点赞、评论、分享等行为类统计特征。例如:tpl_fc_goods_id, tpl_fc_goods_spu_id, tpl_fc_goods_status, tpl_fc_goods_cate_1, tpl_fc_goods_brand, tpl_fc_goods_title, tpl_fc_goods_current_price, tpl_fc_price_reduction, tpl_fc_goods_comment_cnt, tpl_fc_goods_share_cnt, tpl_fc_goods_praise_cnt_1000, ... |
父物品类特征 | 约 70 个 | 包含商品服务基础信息相关的特征,如:id、名称、品牌、评分、店铺id、更新时间等,以及点击、评论、点赞、分享等行为类统计特征。例如:tpl_fc_parent_goods_id, tpl_fc_parent_goods_status, tpl_fc_parent_goods_brand, tpl_fc_parent_goods_spu_id, tpl_fc_parent_goods_rating, tpl_fc_parent_goods_share_cnt, tpl_fc_parent_goods_comment_cnt, tpl_fc_pitem_1d_tpl_fc_goods_title_terms_conversion_score_list, ... |
上下文类基础特征 | 约 20 个 | 包含行为发生时的相关上下文信息,如:页面、发生时间等。例如:tpl_fc_page, tpl_fc_bhv_time_hourofday, tpl_fc_bhv_time_periodofday, tpl_fc_bhv_time_dayofweek, ... |
Combine 类特征 | 约 10 个 | 包含用户id与商品价格、售卖数量、所在页面、品牌、类别及spm等交叉特征。例如:tpl_fc_user_id-tpl_fc_goods_current_price, tpl_fc_user_id-tpl_fc_page, tpl_fc_user_id-tpl_fc_goods_brand, ... |
特征类别 | 数量 | 概述 |
---|---|---|
用户类特征 | 约 300 个 | 包含用户基础信息相关的特征,如:id、年龄、性别、设备id、会员等级、国家、省份、城市、城区、标签、注册时间等,以及与物品交互的点击、评论、收藏、点赞、查询等行为的次数(cp)以及近期交互对象列表(recent)等统计类信息。例如:tpl_fc_user_id, tpl_fc_user_age, tpl_fc_user_gender, tpl_fc_user_device_id, tpl_fc_user_membership_level, tpl_fc_user_tags_list, tpl_fc_user_subscriber_type, tpl_fc_user_last_login_time_month, tpl_fc_user_st_1d_doc_id_click_cp, tpl_fc_user_st_1d_doc_cate2_comment_recent, ... |
物品类特征 | 约 60 个 | 包含文章基础信息相关的特征,如:id、标题、作者、类别、语种、价格、更新时间等,以及点赞、评论、分享、收藏等行为类统计特征。例如:tpl_fc_doc_id, tpl_fc_doc_title_terms, tpl_fc_doc_type, tpl_fc_doc_cate1, tpl_fc_doc_cate2, tpl_fc_doc_cate3, tpl_fc_doc_author_id, tpl_fc_doc_tags, tpl_fc_doc_share_cnt_10, tpl_fc_doc_collect_cnt_10, tpl_fc_doc_praise_cnt_10, ... |
父物品类特征 | 约 30 个 | 包含父物品基础信息相关的础特征(类似物品类特征,此处略)。例如:tpl_fc_parent_doc_id, tpl_fc_parent_doc_title_terms, tpl_fc_parent_doc_type, tpl_fc_parent_doc_cate1, tpl_fc_parent_doc_cate2, tpl_fc_parent_doc_cate3, tpl_fc_parent_doc_author_id, tpl_fc_parent_doc_tags, tpl_fc_parent_doc_source_id, tpl_fc_parent_doc_keyword, ... |
上下文类基础特征 | 约 30 个 | 包含行为发生时的相关上下文信息,如:页面、平台、操作系统、客户端版本、所属网络、设备型号等。例如:tpl_fc_page, tpl_fc_platform, tpl_fc_os, tpl_fc_os_version, tpl_fc_client_version, tpl_fc_network, tpl_fc_device_model, tpl_fc_country, tpl_fc_province, tpl_fc_city, tpl_fc_district, tpl_fc_area, ... |
Match 类特征 | 约 10 个 | 包含父内容与相关内容的类型、标签、来源id、关键字、作者id等 match 类特征。例如:tpl_fc_parent_doc_title_terms_has, tpl_fc_parent_doc_type_has, tpl_fc_parent_doc_source_id_has, tpl_fc_parent_doc_keyword_has, ... |
特征类别 | 数量 | 概述 |
---|---|---|
用户类特征 | 约 100 个 | 包含用户基础信息相关的特征,如:id、年龄、性别、设备id、会员等级、国家、省份、城市、城区、标签、注册时间等,以及与物品交互的点击、播放等行为的次数(cp)以及近期交互物品列表(recent)等统计类特征。例如:tpl_fc_user_id, tpl_fc_user_age, tpl_fc_user_gender, tpl_fc_user_device_id, tpl_fc_user_membership_level, tpl_fc_user_tags_list, tpl_fc_user_subscriber_type, tpl_fc_user_last_login_time_month, tpl_fc_user_lt_item_id_play_recent, tpl_fc_user_lt_item_id_play_cp, ... |
物品类特征 | 约 60 个 | 包含视频基础信息相关的特征,如:id、标题、作者、类别、语种、价格、更新时间等,以及曝光、点击、播放等行为类统计特征。例如:tpl_fc_item_id, tpl_fc_item_name_terms, tpl_fc_item_rating, tpl_fc_item_category_list1, tpl_fc_item_author_list, tpl_fc_item_tags_list, tpl_fc_item_id_st_1d_count_log1p_exposure, tpl_fc_item_current_price_10, tpl_fc_item_keyword, ... |
父物品类特征 | 约 90 个 | 包含父物品基础信息相关的础特征(类似物品类特征,此处略),以及与相关物品有关的点击、播放次数(cp)和近期高频交互物品列表(recent)等统计类特征。例如:tpl_fc_parent_item_id, tpl_fc_parent_item_name, tpl_fc_parent_item_video_type, tpl_fc_parent_item_category_list1, tpl_fc_parent_item_author_list, tpl_fc_parent_item_tags_list, tpl_fc_parent_item_region_list, tpl_fc_parent_item_actor_list, tpl_fc_parent_item_lt_item_id_click_recent, tpl_fc_parent_item_lt_item_id_play_recent, tpl_fc_parent_item_st_30d_item_id_play_cp, ... |
上下文类基础特征 | 约 25 个 | 包含行为发生时的相关上下文信息,如:页面、继续播放、设备id等。例如:page,device_id, tpl_fc_bhv_play_type, tpl_fc_bhv_continue_play, ... |
Match 类特征 | 约 10 个 | 包含父物品与视频类型、视频名称、视频类别、导演、演员列表,以及点击数量、最近点击等 match 类特征。例如:tpl_fc_pitem_30d_item_id_click_score_list_has_match, tpl_fc_parent_item_author_list_has_match, tpl_fc_parent_item_author_list_has_match, ... |
模板创建的样本信息如下:
Q: 支持模板的特征工程与原自动化特征工程相比有什么不同?
A: 详见下表。
自动化特征工程 | 包含预置模板的特征工程 | |
---|---|---|
数据处理 | 预置表和任务,不可见 | 预置表和任务,可见但不可编辑、删除 |
原始特征 | 预置原始特征,不可见 | 预置原始特征,可见但不可编辑、删除 |
特征 | 预置特征,不可见 | 预置特征,可见但不可编辑、删除 |
样本 | 预置样本,不可见
| 预置一个批式样本,可见也可以编辑,不可删除 |
Q: 我的应用已经使用了自动化特征工程,可以切换为支持模板的特征工程么?
A: 可以。我们会安排将原自动化特征工程的项目逐步切换为支持模板的特征工程,如果您的需求比较迫切,可以将您的需求告知您的客户成功经理,我们会尽快为您评估。
Q: 我可以把自己创建的特征保存为模板么?
A: 暂不支持。您可将需求反馈给您的客户成功经理,我们会尽快评估并反馈。
Q: 模板内容更新后,已经启用模板的项目会应用更新的内容么?该如何操作?
A: 会的,系统会在有新版模板时进行无感更新。如有新增特征,您可按需进行栏位关联或添加到样本当中。
Q: 启用模板后是否支持停用?
A: 暂时不支持停用。如果您不再使用模板创建的内容,可以停止模板创建的样本追新。
Q: 我已经在没有启用模板时创建了一些内容,这个时候启用模板会影响我已经创建的内容么?
A: 不会影响。启用模板时创建的内容名称都会包含特定的前缀,这些前缀您创建内容时无法使用。所以不会影响您已经创建的内容。
Q:行业模板使用时有什么注意事项?
A:若一开始样本开启追新时没有添加父物品相关特征,后续希望增加父物品相关特征时,需要先回溯样本,当所有可用日期样本都已生成后再添加父物品相关特征。如果没有先回溯样本,或者在样本回溯期间增加了父物品相关特征,则会导致样本任务中止。如果出现了这种情况,请联系客服或客户成功经理,我们会帮您解决。该问题也会在后续迭代中进行优化。