You need to enable JavaScript to run this app.
导航

数据输出

最近更新时间2024.03.28 11:53:22

首次发布时间2024.03.28 11:53:22

1.功能概述

数据输出模块支持将客户下游系统对接VeCDP,用户可以将在VeCDP上创建的数据数据输出到如自有数据库,以便进行灵活处理应用或分析工作。

2.使用限制
  • 任务创建者: 需要具备功能权限(即项目中心-权限-编辑数据输出任务的权限)+ 资源权限(需要用到的标签&属性的权限)

  • 数据使用者: 需要具有数据行权限

3.能力说明

3.1 支持输出的内容说明

输出内容说明支持的输出类型

标签

  • 离线&实时标签结果表

  • 标签结果+ID类型

  • 全量宽表输出

  • 全量高表输出

分群

  • 全量分群ID+附带信息(包含:标签、主体属性、行为事件、业务明细、ID类型)

  • 部分分群ID+附带信息(包含:标签、主体属性、行为事件、业务明细、ID类型)

  • 全量宽表输出

主体属性

  • 主体属性+ID类型
  • 全量宽表输出

  • 全量高表输出

行为属性

  • 行为属性+ID类型
  • 全量宽表输出

  • 全量高表输出

业务明细

  • 业务明细+ID类型
  • 全量宽表输出

  • 全量高表输出

说明

  • 高表是指行多列少的表,一行中的数据量较少,行数多

  • 宽表是指列多行少的表,一行中的数据量较大,行数少

  • 输出频率均支持定时输出(支持天、周、月)或 单次输出

3.2 支持输出的下游存储

类型存储名称输出连接限制支持的产品版本支持部署形态

表名

列名

不支持类型

以字母开头

外置存储Las(版本号:2.0)小写字母、数字、下划线小写字母,数字,下划线必须1.21私部
外置 hive小写字母、数字、下划线小写字母,数字,下划线必须1.21私部

内置存储

内置hive

/

小写字母、数字、下划线

不支持array

必须

1.19.2

私部

1.20.1saas 托管账号

内置hdfs

/

小写字母、数字、下划线

/

必须

1.19.2

私部

1.20.1saas 托管账号

第三方云存储

火山引擎云存储

/

小写字母、数字、下划线

/

必须

1.19.2

私部

1.20.1saas 托管账号
1.20.1saas 非托管账户

阿里云存储

/

小写字母、数字、下划线

/

必须

1.19.2

私部

1.20.1saas 托管账号
1.20.1saas 非托管账户

腾讯云存储

/

小写字母、数字、下划线

/

必须

1.19.2

私部

1.20.1saas 托管账号
1.20.1saas 非托管账户
3.3 操作步骤

第一步:渠道配置(在项目中心>渠道配置中,完成第三方存储、LAS、外置Hive的通道配置)
第二步:创建数据输出任务(在营销应用>数据输出中,新建数据输出任务,配置输出内容、输出频率、输出账号、任务依赖等)

3.3.1 完成渠道配置

1.点击 项目中心 > 渠道管理 ,在第三方渠道页面选择 添加渠道应用
2.支持火山云对象存储、阿里云对象存储、腾讯云对象存储、外置hive和LAS账号渠道的绑定

3.3.1.1 火山云对象存储

点击 项目中心 > 渠道管理 ,在第三方渠道页面选择 添加渠道应用 ,选择 火山云对象存储, 准确填写对应信息后点击 授权 即可。

所需信息获取步骤如下:
1.登陆 火山云官网,登陆账号; 2.点击头像,选择 API访问密钥 ,获取Accesskey、AccessKeySecret信息;

3.创建存储桶,点击查看操作说明

4.获取桶信息。在左侧导航栏,单击概览,在右侧页面查看该存储桶的用量概览、基本信息和访问域名,在该页面获取OSS地址、Bucket名称等信息。

3.3.1.2 阿里云存储

点击 项目中心 > 渠道管理 ,在第三方渠道页面选择 添加渠道应用 ,选择 阿里云对象存储, 准确填写对应信息后点击 授权 即可。

所需信息获取步骤如下:
1.登陆 阿里云官网,登陆账号; 2.在 访问控制 页面,获取Accesskey,AccessKeySecret信息;

3.创建存储空间,完成后可以 获取存储空间地域信息 ,取得OSS地址、Bucket名称等信息。

3.3.1.3 腾讯云存储

点击 项目中心 > 渠道管理 ,在第三方渠道页面选择 添加渠道应用 ,选择 腾讯云对象存储, 准确填写对应信息后点击 授权 即可。

所需信息获取步骤如下:
1.登陆 腾讯云官网,登陆账号; 2.在 访问管理 页面,获取Accesskey,AccessKeySecret信息;

3.在左侧导航中,单击存储桶列表,进入存储桶列表页面,单击创建存储桶。点击查看操作说明

4.在 存储桶列表 页面,获取Bucket名称、Bucket Region等信息。

3.3.1.4 外置Hive

外置hive添加渠道示例(Krb5鉴权)

  • 添加渠道应用

hiveServer2Url: jdbc:hive2://example.com:10000/;principal=hive/example.com@BYTEDANCE.COM

hive user : cdp

hdfs Address : hdfs://nameservice1

数据仓库: /commons/cdp

principal: cdp@BYTEDANCE.COM

刷新界面,记录 账户ID/账户组ID

  1. 上传配置文件

需提前准备好以下文件,

  • keytab文件,例 cdp.keytab

  • core-site.xml

  • hdfs-site.xml

  • krb5.conf

需将文件做以下处理
cdp.keytab, krb5.conf ,core_site.xml ,hdfs_site.xml (hdfs-site.xml、core-site.xml需要将"-"改成"_",否则会有问题)

hdfs-site.xml修改客户端创建目录的权限,默认为022

  <property>
    <name>fs.permissions.umask-mode</name>
    <value>002</value>
  </property>

对应的路径为

#platformId为三方授权时的id,在项目中心-三方渠道-hive找到相关id上传

/user/dp/cdp/data_asset/security/kerberos/${platformId}/${userKeyTable}
/user/dp/cdp/data_asset/security/kerberos/${platformId}/krb5.conf
/user/dp/cdp/data_asset/security/kerberos/${platformId}/core_site.xml
/user/dp/cdp/data_asset/security/kerberos/${platformId}/hdfs_site.xml

例:如果id为 1
执行 hdfs dfs -mkdir -p /user/dp/cdp/data_asset/security/kerberos/1
执行 hdfs dfs -put -f cdp.keytab /user/dp/cdp/data_asset/security/kerberos/1
    hdfs dfs -put -f krb5.conf /user/dp/cdp/data_asset/security/kerberos/1
    hdfs dfs -put -f core_site.xml /user/dp/cdp/data_asset/security/kerberos/1
    hdfs dfs -put -f hdfs_site.xml /user/dp/cdp/data_asset/security/kerberos/1

操作流程

点击 项目中心 > 渠道管理 ,在第三方渠道页面选择 添加渠道应用 ,选择 外置Hive。

在外置Hive配置页面,按照以下要求填写所需信息:

  • 账号名称: 输入Hive账号名称即可

  • hiveServer2Url:输入hiveServer2的URL地址,支持使用zookeeper形式的地址。

  • hdfs Address:提供输出到外置HDFS的地址。

  • 数据仓库:指定hive metaStore的warehouse路径,例如,如果使用CDP作为标志,可以填写为“/user/hive/cdp_warehouse”。

  • 鉴权方式:选择适合的鉴权方式,目前支持“用户密码”和“kerberos鉴权”两种方式。

    • 用户密码:输入hive用户的用户名和密码。

    • kerberos鉴权:需要提供keytable文件对应的principal信息。

  • 上传配置文件:上传必要的配置文件,包括但不限于hdfs_site.xml, core_site.xml, krb5.conf, xxx.keytab文件。注意,文件名不支持使用中划线。

确认所有信息填写无误后,点击“授权”按钮完成配置。

3.3.1.5 LAS

点击 项目中心 > 渠道管理 ,在第三方渠道页面选择 添加渠道应用 ,选择 LAS。

在配置LAS的页面,按照以下要求填写所需信息:

  • LAS endPoint : 输入LAS服务部署的前端页面URL。请确保URL格式正确,包括协议(如http或https)和完整的路径。

  • identityId: 填写用户在minibase注册时获得的身份ID

  • identityType: 输入用户在minibase注册时的身份类型。身份类型通常包括但不限于USER(用户)、ACCOUNT(账户)等。注意:输入的身份类型需要是大写的。

填写示例如下:

3.3.2 基础信息配置

  • 点击 营销应用>数据输出>新建任务 按钮 ;

  • 在配置页面填写对应信息:
    • 任务名称: 为当前数据输出任务命名,支持中英文/数字/下划线

    • 输出方式: 支持三方存储(包含火山云对象存储、阿里云对象存储、腾讯云对象存储)、外置存储(包含外置Hive、LAS)、内置存储(HDFS、内置Hive)

3.3.3 输出内容配置

3.3.3.1 输出「标签」数据资产

  • 输出内容: 选择 标签 并勾选需要输出的标签。

  • 选择ID类型: 支持多选ID信息作为附带信息一并输出。最多可以选择10个ID类型。

  • 输出类型:

    • 支持 全量宽表 输出,输出的标签数据表结构的样例如下:
    基准IDXX_ID,如用户ID性别年龄会员等级标签…业务日期
    6352895374820163846208753191623白金……2023/6/13
    6352837274820163846208763804245黄金……2023/6/14
    6352895374862973846208753827423白银……2023/6/15
    7362895374820163846208744218730白银……2023/6/16
    • 支持 全量高表 输出,输出的标签数据表结构的样例如下:
    基准ID标签ID标签值业务日期
    63528953748201638462087232023/6/13
    6352837274820163846208745252023/6/14
    6352895374862973846208721大学2023/6/15
    7362895374820163846208789白金会员2023/6/16

3.3.3.2 输出「主体属性」数据资产

  • 输出内容: 选择 主体属性 并勾选需要输出的主体属性。最多可以选择5个数据档案对应的主体属性。

  • 选择ID类型: 支持多选ID信息作为附带信息一并输出。最多可以选择10个ID类型。

  • 输出类型: 支持全量宽表、高表输出。

3.3.3.3 输出「行为属性」数据资产

  • 输出内容: 选择 行为属性 并勾选需要输出的行为属性。最多可以选择5个数据档案对应的行为属性。

  • 选择ID类型: 支持多选ID信息作为附带信息一并输出。最多可以选择10个ID类型。

  • 输出类型: 支持全量宽表、高表输出。

3.3.3.4 输出「业务明细」数据资产

  • 输出内容: 选择 业务明细 并勾选需要输出的明细数据。最多可以选择5个数据档案对应的明细数据。

  • 选择ID类型: 支持多选ID信息作为附带信息一并输出。最多可以选择10个ID类型。

  • 输出类型: 支持全量宽表、高表输出。

3.3.3.5 输出「分群」数据资产

  • 输出内容: 选择 分群 并勾选需要输出的分群。
    • 输出方式: 用户可以选择输出全量ID或仅输出部分ID,以适应不同的分析和运营需求。

    • 附带信息: 在输出分群时,用户可以添加额外的附带信息,如标签、主体属性、行为事件、业务明细,增强输出时的信息补充和理解。

    • 多选输出ID类型: 输出时支持多选ID(ID图谱中引入的ID均可勾选),最多支持选择10个。

3.3.4 输出方内容配置

3.3.4.1 输出至「第三方存储对象」

  • 输出账号: 即选择输出的下游存储渠道的账号名称。

  • 输出频率:

    • 如果需要一次性数据输出,选择“单次输出”。

    • 如果需要定期数据输出,选择“定时输出”,并进一步选择输出周期(按天、周、月)。

  • 输出文件夹名称:

    • 默认情况下,文件夹名称将由任务名称和时间戳组成,例如“111_20231104”。

    • 注意文件夹名称的最大长度限制为32个字符,且名称必须是唯一的。如果需要,可以修改默认名称。

    • 可以选择是否在文件夹名称后添加时间戳后缀。

  • 存储格式: CSV、Parquet、ORC或JSON。

  • 分隔符: 根据数据内容和需求,选择适合的分隔符,支持的分隔符包括逗号(,)、分号(;)、制表符(\t)和竖线(|)。

  • 选择数据行权限: 如果需要基于用户权限进行数据输出,可以选择此选项。在弹出的列表中选择项目内的用户,系统将根据所选用户的数据行权限来输出相应的数据资产。

3.3.4.2 输出至「外置Hive、LAS、内置Hive」

  • 输出账号: 即选择输出的下游存储渠道的账号名称。

  • 输出频率:

    • 如果需要一次性数据输出,选择“单次输出”。

    • 如果需要定期数据输出,选择“定时输出”,并进一步选择输出周期(按天、周、月)。

  • 输出数据库: 填写数据输出到的数据库名称

  • 输出数据表: 填写数据输出到的数据表名称。请确保数据表已存在或您有权限创建。

  • 选择数据行权限: 如果需要基于用户权限进行数据输出,可以选择此选项。在弹出的列表中选择项目内的用户,系统将根据所选用户的数据行权限来输出相应的数据资产。

3.3.4.3 输出至「内置存储-HDFS



  • 输出频率:

    • 如果需要一次性数据输出,选择“单次输出”。

    • 如果需要定期数据输出,选择“定时输出”,并进一步选择输出周期(按天、周、月)。

  • 存储格式: CSV、Parquet、ORC或JSON。

  • 分隔符: 根据数据内容和需求,选择适合的分隔符,支持的分隔符包括逗号(,)、分号(;)、制表符(\t)和竖线(|)。

  • 输出路径: 填写数据将被输出到的HDFS路径。请确保路径格式正确,并且您有权限在该路径下创建文件。

  • 选择数据行权限: 如果需要基于用户权限进行数据输出,可以选择此选项。在弹出的列表中选择项目内的用户,系统将根据所选用户的数据行权限来输出相应的数据资产。

3.3.5 输出数据预览

支持表结构预览数据和编辑;

  • 字段类型:如int、string等

  • 字段名称:输出的结果表的列名,支持用户自定义

    • 小写英文字母、数字、下划线(_),并且以小写英文字母开头

    • 最大长度为32个字符,名称不可重复

  • 资产名称:用户选择的资产内容的名称,如标签名称

  • 资产类型:用户选择的资产类型,如标签、分群、ID类型、属性等

  • 资产ID:用户选择的资产内容的ID,如分群ID、标签ID

3.3.6 任务依赖配置

  • 在任务依赖配置页,系统将自动展示与所选资产相关的上游依赖任务信息。

  • 对于每个上游依赖任务,系统会提供一个开关按钮,用户可以通过点击该按钮来开启或关闭任务依赖。开启依赖意味着当前任务的执行将依赖于上游任务的完成;关闭依赖则表示当前任务的执行不受上游任务状态的影响。