You need to enable JavaScript to run this app.
导航
名词解释
最近更新时间:2024.08.14 12:10:42首次发布时间:2022.10.09 14:06:09
我的收藏
有用
有用
无用
无用

包括原始表和中间表,对原始表只有只读权限,对中间表有读写权限。

原始表

一共有10张原始表,包含:

  • 系统生成的5张表格类表
    • 根据用户上传的历史+增量天级的用户表、物品表、行为表分别生成:
      • hive_user:天级用户表数据。
      • hive_item:天级物品表数据。
      • hive_bhv:天级行为表数据。
    • 根据推荐接口日志中的全部信息生成:
      • hive_api_log:天级api日志表。
    • 根据实时行为数据归因后落盘生成:
      • hive_bhv_streaming:天级实时行为数据落盘表。
  • 系统生成的3张消息队列类表:根据用户上传的实时用户表、物品表、行为表分别生成:
    • mq_user:实时用户表数据。
    • mq_item:实时物品表数据。
    • mq_bhv:实时行为表数据。
  • 系统生成的2张kv类表
    • kv_user:以用户 ID 为 key 的用户原始信息表,在线服务在生成推荐结果的过程中会使用 kv_user 表里的字段信息。
    • kv_item:以物品 ID 为 key 的物品原始信息表,在线服务在生成推荐结果的过程中会使用 kv_item 表里的字段信息,比如填充 item 字段信息等等。

注意

数据模块中上传的 int32、int64 的字段类型,在原始表中经过处理展示为 int、bigint 类型;数据模块中上传的 array、map 复杂类型,在原始表中经过处理展示为 string 类型。

中间表

在【特征工程】-【数据处理】模块创建的表为中间表,中间表类型包括:表格类、键值类、消息队列类、窗口聚合类。

  • 表格类:按照 table 格式进行数据读写。
  • 键值类:按照 key-value 格式进行数据读写。
  • 消息队列类:流式数据读写,需要定义消息队列的 Partition 数量。
  • 窗口聚合类:用于生产窗口聚合类特征数据,例如某用户在某段时间内对某个商品的点击次数/某用户在某段时间内点击过的商品列表等。支持按照天/小时/分钟级时间窗口进行统计。

任务

任务类型

分为数据处理、数据导入两大类。

  • 数据处理:通过 SQL 任务或者表单配置对特定的数据进行处理计算。数据处理类又包含三种类型任务:表格类、消息队列类、窗口聚合类。
    • 表格类:通过批式 SQL 对表格类表字段进行数据处理。原始特征的数据来源为表格类时,既可用于生成离线样本,也可用于在线预估服务。
    • 消息队列类:通过流式 SQL 对消息队列表数据进行 ETL 处理,将处理结果输出到下游的 KV 表或者消息队列表用于后续的其他环节处理。
    • 窗口聚合类:用于生产窗口聚合类特征数据,例如某用户在某段时间内对某个商品的点击次数/某用户在某段时间内点击过的商品列表等。支持按照天/小时/分钟级时间窗口进行统计。
  • 数据导入:为 kv 导入类任务,kv 类表仅用于在线预估服务,不可用于生成离线样本。kv 类表需要通过表格类表、天级窗口聚合类表进行导入,并配置字段映射关系。

任务SQL语法标准

具体支持的SQL函数说明参见SQL帮助文档

  • 批式任务采用ANSI SQL 2011标准。
  • 流式任务兼容 Flink SQL 语法。

原始特征

原始特征

上游直接映射数据源的某个字段,下游经过抽取生成特征。一个原始特征单独配置在线数据源和离线数据源。

类别

枚举值有 user 类、item类、p_item类、 context类。

离线数据源

可以选择 table 类表、天级窗口聚合类表,另 user 类和 p_item 类的原始特征只能选择含有 user 维度主键的表,item 类别的原始特征只能选择含有 item 维度主键的表,context 类别的原始特征只能选择同时含有 user 维度 item 维度主键的表。

在线数据源

可以选择键值类(kv 类)中间表 、天级内窗口聚合类表、 在线请求(online_req)。另,不同类别的原始特征和维度主键的对应关系同离线数据源。
在调用推荐接口的 API 时,可通过 context 传入参数(详情可参考:推荐接口(predict)),之后就可以通过在线数据源中选择”online_req“,将这些参数定义为在线数据源的字段了。这些在线数据源字段,可发布到线上或用于在线模型。

特征

特征

对原始特征或特征进行抽取得到特征。

在线特征

在线特征是提供给在线服务使用的特征,用于 inference(召回、粗排和精排)。在线特征按目前的分类有(KV、实时窗口、context)。Streaming Feature 是在线特征的 dump,流式样本用 Streaming Feature 和实时 Label (来自于消息队列表)拼接而来。

抽取方法

是对输入的原始特征或特征,按照参数配置抽取加工成模型可识别的特征格式的计算方法。

依赖

指抽取方法的输入,可以是原始特征或已有的特征。

参数配置

是特征抽取方法的参数配置,需要根据具体业务需求去定义。

发布特征

发布特征可将特征关联到栏位,发布成功后才可用于在线预估及流式样本。

样本

样本

将特定的特征集和行为数据源做拼接,生成样本。样本可用于模型训练。样本分批式样本和流式样本。

批式样本

由表格类行为数据表拼接特征生成。

流式样本

由消息队列类行为数据表拼接在线特征生成。

行为数据表

可以是在数据模块上传的原始行为表,也可以是对原始行为表进行数据处理后得到的中间表。

特征来源

指拼接样本时特征值的来源。离线特征是离线计算生成的特征值。在线特征是在线服务预估时在线抽取生成的特征值。

辅助信息

辅助信息用于将所选字段的原始值拼接到样本中。可用于在模型训练或在模型代码中使用特征原始值对样本进行过滤等预处理。目前可配置为辅助信息的字段范围是固定的,同时只有存在于样本行为数据中的字段才可用于配置辅助信息。