包括原始表和中间表,对原始表只有只读权限,对中间表有读写权限。
一共有10张原始表,包含:
注意
数据模块中上传的 int32、int64 的字段类型,在原始表中经过处理展示为 int、bigint 类型;数据模块中上传的 array、map 复杂类型,在原始表中经过处理展示为 string 类型。
在【特征工程】-【数据处理】模块创建的表为中间表,中间表类型包括:表格类、键值类、消息队列类、窗口聚合类。
分为数据处理、数据导入两大类。
具体支持的SQL函数说明参见SQL帮助文档
上游直接映射数据源的某个字段,下游经过抽取生成特征。一个原始特征单独配置在线数据源和离线数据源。
枚举值有 user 类、item类、p_item类、 context类。
可以选择 table 类表、天级窗口聚合类表,另 user 类和 p_item 类的原始特征只能选择含有 user 维度主键的表,item 类别的原始特征只能选择含有 item 维度主键的表,context 类别的原始特征只能选择同时含有 user 维度 item 维度主键的表。
可以选择键值类(kv 类)中间表 、天级内窗口聚合类表、 在线请求(online_req)。另,不同类别的原始特征和维度主键的对应关系同离线数据源。
在调用推荐接口的 API 时,可通过 context 传入参数(详情可参考:推荐接口(predict)),之后就可以通过在线数据源中选择”online_req“,将这些参数定义为在线数据源的字段了。这些在线数据源字段,可发布到线上或用于在线模型。
对原始特征或特征进行抽取得到特征。
在线特征是提供给在线服务使用的特征,用于 inference(召回、粗排和精排)。在线特征按目前的分类有(KV、实时窗口、context)。Streaming Feature 是在线特征的 dump,流式样本用 Streaming Feature 和实时 Label (来自于消息队列表)拼接而来。
是对输入的原始特征或特征,按照参数配置抽取加工成模型可识别的特征格式的计算方法。
指抽取方法的输入,可以是原始特征或已有的特征。
是特征抽取方法的参数配置,需要根据具体业务需求去定义。
发布特征可将特征关联到栏位,发布成功后才可用于在线预估及流式样本。
将特定的特征集和行为数据源做拼接,生成样本。样本可用于模型训练。样本分批式样本和流式样本。
由表格类行为数据表拼接特征生成。
由消息队列类行为数据表拼接在线特征生成。
可以是在数据模块上传的原始行为表,也可以是对原始行为表进行数据处理后得到的中间表。
指拼接样本时特征值的来源。离线特征是离线计算生成的特征值。在线特征是在线服务预估时在线抽取生成的特征值。
辅助信息用于将所选字段的原始值拼接到样本中。可用于在模型训练或在模型代码中使用特征原始值对样本进行过滤等预处理。目前可配置为辅助信息的字段范围是固定的,同时只有存在于样本行为数据中的字段才可用于配置辅助信息。