You need to enable JavaScript to run this app.
导航
关联数据集
最近更新时间:2024.06.14 16:54:46首次发布时间:2021.03.05 14:04:41

1. 概述

关联数据集,是指您可以将两个数据集进行字段的匹配关联,方便您根据业务场景进行多个数据集的联合使用,进而形成一个满足自己数据需求的数据集。
图片

2. 快速入门

创建关联数据集

第一步:进入数据集模块,点击左上角的「新建」,选择「新建关联数据集」
图片
第二步:点击「新建关联数据集」后,会进入创建数据集页面,此时左侧会显示有权限的数据集列表
图片
第三步:在左侧选择需要的数据集后,将数据集拖入中间空白区域,选择关联字段即可

图片

第四步:进行字段配置调整后,点击「保存」即可创建数据集
图片

3. 功能介绍

3.1 创建关联数据集所需权限

创建关联数据集的模型配置页面,左侧仅展示并仅可使用当前项目下自己拥有查看及查看以上权限的数据集

  • 支持点击数据集列表右上角的筛选按钮进行筛选
    图片

3.2 数据集关联所需条件

抽取数据集

  • 用于关联的数据集需要创建在同一个集群下
  • 抽取数据集可以与同集群下直连内置ClickHouse数据集进行关联

直连数据集

  • 相同集群下的ClickHouse直连数据集支持互相关联
  • 来自同一个数据连接的直连数据集支持互相关联
  • 来自同一个数据连接的本地文件直连数据集支持互相关联
  • 数据集的存储方式需要相同(例如均为 ClickHouse;如果一个为 ClickHouse,另一个为 Hive,则不支持 Join)如果想要进行 Join 的数据集不满足以上条件,则会在页面上出现以下提示:
    图片

3.3 支持的数据类型

  • 离线抽取数据集(例如以 Hive 或者 ClickHouse 为数据源的抽取数据集)
  • 实时抽取数据集(例如 Kafka 数据集)
  • 直连数据集
  • 直连 ClickHouse/ByteHouse 数据集(数据表需要来自同一个集群)

3.4关联字段表达式

  • 若需关联的字段因格式不一致等原因无法直接关联,可在选择关联字段时,选择“表达式”对字段进行处理,减少二次加工工作量。

图片
图片

3.5 权限说明

3.5.1 资源权限

  • 用户可以使用自己有「查看及以上权限」的数据集创建关联数据集
  • 对于「无权限」或拥有「仅阅览」权限的数据集,则无法选择

数据集的编辑者,仅可使用「数据集所有者」以及「自己」有「查看及以上权限」的数据集来修改此关联数据集

3.5.2 行列权限

场景:数据集1 join 数据集2 做逻辑关联生成数据集X 后,数据集X 上行列权限的生效规则如下:
(1)用户在可视化页面查询该数据集,需要数据集X的资源权限,具体能查到的行和列,遵循用户拥有的数据集1 和 2 的行列权限
(2)用户在仪表盘上查看数据集X 做的图表,除了需要仪表盘的权限外,还需要数据集 1 和 2 的行列权限,不需要数据集X 的权限

行列权限判断维度

条件

条件

条件

条件

条件

条件

条件

条件

条件

条件

条件

条件

用户是否有数据集X 的资源权限

用户是否有数据集1 的资源权限

数据集1 是否开启行列权限控制

未开启

开启

开启

未开启

开启

开启

未开启

开启

开启

未开启

开启

开启

用户是否有数据集1 的行列权限

NA

NA

NA

NA

用户是否能在可视化页面查询数据集X
&
用户是否能在数据集详情页-预览-查看数据集X 的明细预览

Y

Y

N

Y

Y

N

N

N

N

N

N

N

能看到的行

全部

有权限的行和列

全部

有权限的行和列

如果用户有仪表盘权限,是否能看仪表盘上数据集X 做的图表

Y

Y

N

Y

Y

N

Y

Y

N

Y

Y

N

能看到的行

全部

有权限的行和列

全部

有权限的行和列

全部

有权限的行和列

全部

有权限的行和列