最近更新时间:2024.03.11 14:24:25
首次发布时间:2024.03.06 15:13:01
数据输出模块支持将客户下游系统对接VeCDP,用户可以将在VeCDP上创建的数据数据输出到如自有数据库,以便进行灵活处理应用或分析工作。
任务创建者: 需要具备功能权限(即项目中心-权限-编辑数据输出任务的权限)+ 资源权限(需要用到的标签&属性的权限)
数据使用者: 需要具有数据行权限
输出内容 | 说明 | 支持的输出类型 |
---|---|---|
标签 |
|
|
分群 |
|
|
|
| |
主体属性 |
|
|
行为属性 |
|
|
业务明细 |
|
|
说明
高表是指行多列少的表,一行中的数据量较少,行数多
宽表是指列多行少的表,一行中的数据量较大,行数少
输出频率均支持定时输出(支持天、周、月)或 单次输出
类型 | 存储名称 | 输出连接限制 | 支持的产品版本 | 支持部署形态 | |||
---|---|---|---|---|---|---|---|
表名 | 列名 | 不支持类型 | 以字母开头 | ||||
外置存储 | Las(版本号:2.0) | 小写字母、数字、下划线 | 小写字母,数字,下划线 | 必须 | 1.21 | 私部 | |
外置 hive | 小写字母、数字、下划线 | 小写字母,数字,下划线 | 必须 | 1.21 | 私部 | ||
内置存储 | 内置hive | / | 小写字母、数字、下划线 | 不支持array | 必须 | 1.19.2 | 私部 |
1.20.1 | saas 托管账号 | ||||||
内置hdfs | / | 小写字母、数字、下划线 | / | 必须 | 1.19.2 | 私部 | |
1.20.1 | saas 托管账号 | ||||||
第三方云存储 | 火山引擎云存储 | / | 小写字母、数字、下划线 | / | 必须 | 1.19.2 | 私部 |
1.20.1 | saas 托管账号 | ||||||
1.20.1 | saas 非托管账户 | ||||||
阿里云存储 | / | 小写字母、数字、下划线 | / | 必须 | 1.19.2 | 私部 | |
1.20.1 | saas 托管账号 | ||||||
1.20.1 | saas 非托管账户 | ||||||
腾讯云存储 | / | 小写字母、数字、下划线 | / | 必须 | 1.19.2 | 私部 | |
1.20.1 | saas 托管账号 | ||||||
1.20.1 | saas 非托管账户 |
第一步:渠道配置(在项目中心>渠道配置中,完成第三方存储、LAS、外置Hive的通道配置)
第二步:创建数据输出任务(在营销应用>数据输出中,新建数据输出任务,配置输出内容、输出频率、输出账号、任务依赖等)
1.点击 项目中心 > 渠道管理 ,在第三方渠道页面选择 添加渠道应用 。
2.支持火山云对象存储、阿里云对象存储、腾讯云对象存储、外置hive和LAS账号渠道的绑定
点击 项目中心 > 渠道管理 ,在第三方渠道页面选择 添加渠道应用 ,选择 火山云对象存储, 准确填写对应信息后点击 授权 即可。
所需信息获取步骤如下:
1.登陆 火山云官网,登陆账号; 2.点击头像,选择 API访问密钥 ,获取Accesskey、AccessKeySecret信息;
3.创建存储桶,点击查看操作说明;
4.获取桶信息。在左侧导航栏,单击概览,在右侧页面查看该存储桶的用量概览、基本信息和访问域名,在该页面获取OSS地址、Bucket名称等信息。
点击 项目中心 > 渠道管理 ,在第三方渠道页面选择 添加渠道应用 ,选择 阿里云对象存储, 准确填写对应信息后点击 授权 即可。
所需信息获取步骤如下:
1.登陆 阿里云官网,登陆账号; 2.在 访问控制 页面,获取Accesskey,AccessKeySecret信息;
3.创建存储空间,完成后可以 获取存储空间地域信息 ,取得OSS地址、Bucket名称等信息。
点击 项目中心 > 渠道管理 ,在第三方渠道页面选择 添加渠道应用 ,选择 腾讯云对象存储, 准确填写对应信息后点击 授权 即可。
所需信息获取步骤如下:
1.登陆 腾讯云官网,登陆账号; 2.在 访问管理 页面,获取Accesskey,AccessKeySecret信息;
3.在左侧导航中,单击存储桶列表,进入存储桶列表页面,单击创建存储桶。点击查看操作说明;
4.在 存储桶列表 页面,获取Bucket名称、Bucket Region等信息。
hiveServer2Url: jdbc:hive2://example.com:10000/;principal=hive/example.com@BYTEDANCE.COM hive user : cdp hdfs Address : hdfs://nameservice1 数据仓库: /commons/cdp principal: cdp@BYTEDANCE.COM
刷新界面,记录 账户ID/账户组ID
需提前准备好以下文件,
keytab文件,例 cdp.keytab
core-site.xml
hdfs-site.xml
krb5.conf
需将文件做以下处理
cdp.keytab, krb5.conf ,core_site.xml ,hdfs_site.xml (hdfs-site.xml、core-site.xml需要将"-"改成"_",否则会有问题)
hdfs-site.xml修改客户端创建目录的权限,默认为022 <property> <name>fs.permissions.umask-mode</name> <value>002</value> </property>
对应的路径为
#platformId为三方授权时的id,在项目中心-三方渠道-hive找到相关id上传 /user/dp/cdp/data_asset/security/kerberos/${platformId}/${userKeyTable} /user/dp/cdp/data_asset/security/kerberos/${platformId}/krb5.conf /user/dp/cdp/data_asset/security/kerberos/${platformId}/core_site.xml /user/dp/cdp/data_asset/security/kerberos/${platformId}/hdfs_site.xml 例:如果id为 1 执行 hdfs dfs -mkdir -p /user/dp/cdp/data_asset/security/kerberos/1 执行 hdfs dfs -put -f cdp.keytab /user/dp/cdp/data_asset/security/kerberos/1 hdfs dfs -put -f krb5.conf /user/dp/cdp/data_asset/security/kerberos/1 hdfs dfs -put -f core_site.xml /user/dp/cdp/data_asset/security/kerberos/1 hdfs dfs -put -f hdfs_site.xml /user/dp/cdp/data_asset/security/kerberos/1
点击 项目中心 > 渠道管理 ,在第三方渠道页面选择 添加渠道应用 ,选择 外置Hive。
在外置Hive配置页面,按照以下要求填写所需信息:
账号名称: 输入Hive账号名称即可
hiveServer2Url:输入hiveServer2的URL地址,支持使用zookeeper形式的地址。
hdfs Address:提供输出到外置HDFS的地址。
数据仓库:指定hive metaStore的warehouse路径,例如,如果使用CDP作为标志,可以填写为“/user/hive/cdp_warehouse”。
鉴权方式:选择适合的鉴权方式,目前支持“用户密码”和“kerberos鉴权”两种方式。
用户密码:输入hive用户的用户名和密码。
kerberos鉴权:需要提供keytable文件对应的principal信息。
上传配置文件:上传必要的配置文件,包括但不限于hdfs_site.xml
, core_site.xml
, krb5.conf
, xxx.keytab
文件。注意,文件名不支持使用中划线。
确认所有信息填写无误后,点击“授权”按钮完成配置。
点击 项目中心 > 渠道管理 ,在第三方渠道页面选择 添加渠道应用 ,选择 LAS。
在配置LAS的页面,按照以下要求填写所需信息:
LAS endPoint : 输入LAS服务部署的前端页面URL。请确保URL格式正确,包括协议(如http或https)和完整的路径。
identityId: 填写用户在minibase注册时获得的身份ID
identityType: 输入用户在minibase注册时的身份类型。身份类型通常包括但不限于USER(用户)、ACCOUNT(账户)等。注意:输入的身份类型需要是大写的。
填写示例如下:
任务名称: 为当前数据输出任务命名,支持中英文/数字/下划线
输出方式: 支持三方存储(包含火山云对象存储、阿里云对象存储、腾讯云对象存储)、外置存储(包含外置Hive、LAS)、内置存储(HDFS、内置Hive)
输出内容: 选择 标签 并勾选需要输出的标签。
选择ID类型: 支持多选ID信息作为附带信息一并输出。最多可以选择10个ID类型。
输出类型:
基准ID | XX_ID,如用户ID | 性别 | 年龄 | 会员等级 | 标签… | 业务日期 |
---|---|---|---|---|---|---|
63528953748201638462087 | 531916 | 男 | 23 | 白金 | …… | 2023/6/13 |
63528372748201638462087 | 638042 | 男 | 45 | 黄金 | …… | 2023/6/14 |
63528953748629738462087 | 538274 | 男 | 23 | 白银 | …… | 2023/6/15 |
73628953748201638462087 | 442187 | 男 | 30 | 白银 | …… | 2023/6/16 |
基准ID | 标签ID | 标签值 | 业务日期 |
---|---|---|---|
63528953748201638462087 | 23 | 男 | 2023/6/13 |
63528372748201638462087 | 45 | 25 | 2023/6/14 |
63528953748629738462087 | 21 | 大学 | 2023/6/15 |
73628953748201638462087 | 89 | 白金会员 | 2023/6/16 |
输出内容: 选择 主体属性 并勾选需要输出的主体属性。最多可以选择5个数据档案对应的主体属性。
选择ID类型: 支持多选ID信息作为附带信息一并输出。最多可以选择10个ID类型。
输出类型: 支持全量宽表、高表输出。
输出内容: 选择 行为属性 并勾选需要输出的行为属性。最多可以选择5个数据档案对应的行为属性。
选择ID类型: 支持多选ID信息作为附带信息一并输出。最多可以选择10个ID类型。
输出类型: 支持全量宽表、高表输出。
输出内容: 选择 业务明细 并勾选需要输出的明细数据。最多可以选择5个数据档案对应的明细数据。
选择ID类型: 支持多选ID信息作为附带信息一并输出。最多可以选择10个ID类型。
输出类型: 支持全量宽表、高表输出。
输出方式: 用户可以选择输出全量ID或仅输出部分ID,以适应不同的分析和运营需求。
附带信息: 在输出分群时,用户可以添加额外的附带信息,如标签、主体属性、行为事件、业务明细,增强输出时的信息补充和理解。
多选输出ID类型: 输出时支持多选ID(ID图谱中引入的ID均可勾选),最多支持选择10个。
输出账号: 即选择输出的下游存储渠道的账号名称。
输出频率:
如果需要一次性数据输出,选择“单次输出”。
如果需要定期数据输出,选择“定时输出”,并进一步选择输出周期(按天、周、月)。
输出文件夹名称:
默认情况下,文件夹名称将由任务名称和时间戳组成,例如“111_20231104”。
注意文件夹名称的最大长度限制为32个字符,且名称必须是唯一的。如果需要,可以修改默认名称。
可以选择是否在文件夹名称后添加时间戳后缀。
存储格式: CSV、Parquet、ORC或JSON。
分隔符: 根据数据内容和需求,选择适合的分隔符,支持的分隔符包括逗号(,)、分号(;)、制表符(\t)和竖线(|)。
选择数据行权限: 如果需要基于用户权限进行数据输出,可以选择此选项。在弹出的列表中选择项目内的用户,系统将根据所选用户的数据行权限来输出相应的数据资产。
输出账号: 即选择输出的下游存储渠道的账号名称。
输出频率:
如果需要一次性数据输出,选择“单次输出”。
如果需要定期数据输出,选择“定时输出”,并进一步选择输出周期(按天、周、月)。
输出数据库: 填写数据输出到的数据库名称
输出数据表: 填写数据输出到的数据表名称。请确保数据表已存在或您有权限创建。
选择数据行权限: 如果需要基于用户权限进行数据输出,可以选择此选项。在弹出的列表中选择项目内的用户,系统将根据所选用户的数据行权限来输出相应的数据资产。
输出频率:
如果需要一次性数据输出,选择“单次输出”。
如果需要定期数据输出,选择“定时输出”,并进一步选择输出周期(按天、周、月)。
存储格式: CSV、Parquet、ORC或JSON。
分隔符: 根据数据内容和需求,选择适合的分隔符,支持的分隔符包括逗号(,)、分号(;)、制表符(\t)和竖线(|)。
输出路径: 填写数据将被输出到的HDFS路径。请确保路径格式正确,并且您有权限在该路径下创建文件。
选择数据行权限: 如果需要基于用户权限进行数据输出,可以选择此选项。在弹出的列表中选择项目内的用户,系统将根据所选用户的数据行权限来输出相应的数据资产。
支持表结构预览数据和编辑;
字段类型:如int、string等
字段名称:输出的结果表的列名,支持用户自定义
小写英文字母、数字、下划线(_),并且以小写英文字母开头
最大长度为32个字符,名称不可重复
资产名称:用户选择的资产内容的名称,如标签名称
资产类型:用户选择的资产类型,如标签、分群、ID类型、属性等
资产ID:用户选择的资产内容的ID,如分群ID、标签ID
在任务依赖配置页,系统将自动展示与所选资产相关的上游依赖任务信息。
对于每个上游依赖任务,系统会提供一个开关按钮,用户可以通过点击该按钮来开启或关闭任务依赖。开启依赖意味着当前任务的执行将依赖于上游任务的完成;关闭依赖则表示当前任务的执行不受上游任务状态的影响。