You need to enable JavaScript to run this app.
导航

元数据连接与应用

最近更新时间2023.11.20 16:52:27

首次发布时间2023.09.13 15:00:36

1. 产品概述

随着智能数据洞察的深入使用,以及在公司内的推广,对产品中各个用户创建的资源做好监控管理变得愈发重要。对此,智能数据洞察为您提供元数据(meta data)连接与模板应用的功能,将您的智能数据洞察环境中的所有数据资产形成一个数据中心,便于您快速查看相关信息,对资源做好监控管理,避免资源的误用滥用,同时也能够针对部分核心看板及数据集构建核心监控,做好数据产出及看板应用的管控。

2. 快速入门
  • 如果您是企业内负责私有化部署的 IT/运维部门成员,那么您可以基于元数据来了解和分析师或者业务用户在智能数据洞察的使用情况,然后可以进一步做运营相关的工作。

  • 如果您是企业内的 IT/运维部门或负责安全监控/信息安全审计的部门成员,那么您可以利用元数据,构建一套安全监控和信息安全审计机制,有效保护企业数据资产安全。

3. 功能介绍

3.1 使用流程

alt

3.2 功能说明

3.2.1 元数据连接

alt
在「数据准备」的数据连接中,项目管理员可以选择「DataWind元数据」,点击创建 DataWind 元数据,创建后根据拥有的项目权限可以查询到有权限的系统元数据。

元数据分为两种状态:

  1. 可用状态:点击创建 DataWind 元数据,创建后根据拥有的项目权限可以查询到有权限的系统元数据;
  2. 禁用状态:系统内包含全部元数据,仅支持项目管理员或集团管理员操作。

alt

点击测试连接后,界面提示连接成功。随后便可点击保存,进入该数据连接的详情界面。

3.2.2 元数据的数据连接详情

alt
目前,智能数据洞察为您提供的元数据包含如下四大类:

  1. 行为事件主题数据:记录平台内不同项目内用户的全部操作行为日志,用户行为审计、用户活跃分析、资源热度等分析内容,其中资源 ID/名称/创建时间等字段主要包含可视化建模/数据集/图表/仪表盘资源信息,如无事件信息则表示资源未被操作访问。
  2. 资产明细主题数据:记录数据集/可视化建模/图表/仪表盘资产明细数据,其中数据集及可视化建模提供调度任务、实例任务及底层表 TTL 资源等信息,可以实现资产统计、任务管理、资源管理等分析。
  3. 资产关系主题数据:记录数据集/可视化建模/图表/仪表盘相互依赖关系,可用于做资产分析、资产查询及血缘查看等分析。
  4. 用户主题数据:记录不同项目下用户数据,用于统计项目变化、用户变化等分析数据。

alt

在元数据的数据连接详情页面,您可以进行查看基础信息,也可以进行如下操作:

  • 查看血缘视图:查看下游的资源,如可视化建模与数据集,具体信息包含这些资源的名称、ID、类型、所有者、创建时间与更新时间等;
  • 权限分配:可通过搜索的方式为用户、用户组、角色、部门等授予权限;
  • 编辑:可修改数据连接名称;
  • 应用:可进一步使用元数据创建数据集/可视化建模任务;
  • 删除。

3.2.3 元数据应用

alt
您可以进一步使用元数据,创建数据集、可视化建模任务,进而搭建仪表盘等。

  • 应用入口:在数据连接详情页,点击右上角的「应用」。
  • 一键创建仪表盘:点击后,系统会自动创建直连数据集及相关看板,创建后会自动生成 【DataWind元数据_年月日是分秒】为标题的数据集,数据集根据你是否拥有是集团管理员或项目管理员分配可以查看到的数据范围,如:A项目项目管理员仅可以看到A项目的数据,集团管理员则可以看到包含A项目的全部数据。
  • 注意事项:
    a. 创建数据集时,建议每个主题元数据构建一个数据集,数据集可以采用直连/抽取,如抽取模式请检查回刷的数据范围,否则可能查到数据为空,直连模式则可以查到项目至今的全部数据;
    b. 数据集的查询数据权限范围:跟随创建人的角色权限控制,非看板用户的权限;
    c. 如果转移所有者,不做任何二次编辑的话,权限不变;
    d. 用户有对应项目的编辑权限,才能创建元数据的数据集;

3.2.4 构建元数据信息大盘

注1:示意图上数据均为样例数据,不代表任何客户的真实数据
注2:此模块提供的模板仅供参考,也可以根据元数据内容自由构建自己需要的数据看板

3.2.4.1 仪表盘模板说明

仪表盘内容模块内容说明截图

资产大盘

  1. 展示权限范围内的项目下资产总量,具体包含总可视化建模数、数据集数、仪表盘数、用户数;

  2. 展示资产的变化趋势,可用于分析大盘用户和使用情况。

资产详查

  1. 展示全局资产的详细分布情况,如资产间存在关联关系,会在详查列表查到详细的血缘联系;

  2. 展示各模块资产的上下游内容依赖,用于判断资产的应用效果

具体包含 可视化建模数、数据集数、仪表盘全局关系及上下游依赖数量


资产热度

  1. 展示项目用户的活跃情况及Top活跃项目

  2. 展示资产的活跃变化及Top活跃资产

  3. 展示Top活跃用户及零访问资产


任务治理

  1. 展示每天定时实例的数量变化及时间分布

  2. 展示实例的耗时分布及Top耗时任务

  3. 展示任务存储资产占用及Top存储资产


行为审计

  1. 提供平台内行为日志的操作细查用于审计

*注:该数据仅会存储在客户本地存储,外部无法查询使用,内部根据需要谨慎严格管理

3.2.4.2 模板一键应用方法

a. 点击下载模板文件至本地:
DataWind 元数据信息大盘模板

b. 进入DataWind-项目中心-资源迁移,点击资源导入,将上一步下载的文件导入

c. 进入DataWind-项目中心-资源迁移,上传后点击 【3.配置数据连接】将平台内已经构建的DataWind数据连接选择至此处
1. *注:导入数据集部分如自己已经构建数据集,可根据名称选择替换,若无可不做任何操作

d. 进入仪表盘/数据集,找到上传的模板内容,点击编辑仪表盘及数据集,更新数据集的权限内容并检查仪表盘数据的准确性,数据集需要考虑进行历史回刷。

4. 元数据指标体系说明

4.1 行为事件主题数据

概述: 记录平台内不同项目内用户的全部操作行为日志,用于行为审计、用户活跃分析、资源热度等分析内容,其中资源ID/名称/创建时间等字段主要包含可视化建模/数据集/图表/仪表盘资源信息,如无事件信息则表示资源未被操作访问
内容:

字段名表达式显示名称备注
p_datep_datep_date日期分区字段
事件时间戳event_timestampevent_timestamp事件时间戳=p_date,即数据表按照增量逻辑存储
项目IDapp_idapp_id
事件用户event_user事件用户
事件发生时间(日期格式)toDate(event_timestamp/1000)事件发生时间(日期格式)
资源IDresource_id资源ID
资源名称resource_name资源名称
资源所有者resource_owner资源所有者
资源创建时间resource_create_time资源创建时间
资源所在项目IDresource_app_id资源所在项目ID
资源类型resource_type资源类型
事件发生时间to_date(event_timestamp/1000)事件发生时间
事件类型event_type事件类型
事件资源IDevent_resource_id事件资源ID
事件发生功能模块event_module事件发生功能模块
事件动作event_action事件动作
事件详情event_payload事件详情
事件所属资源名称event_resource_name事件所属资源名称
事件所属资源类型名称event_resource_type_name事件所属资源类型名称
访问PVcount(event_user)访问PV计算字段
访问UVcount(distinct event_user)访问UV计算字段

4.2 资产明细主题数据

概述: 记录数据集/可视化建模/图表/仪表盘资产明细数据,其中数据集及可视化建模提供调度任务、实例任务及底层表TTL资源等信息,可以实现资产统计、任务管理、资源管理等分析。
内容:

注:资产中包含所有资产内容,可能包含系统构建的任务

字段名表达式显示名称备注
p_datep_datep_date
底表创建时间data_table_create_time底表创建时间
底表存储大小data_table_table_size底表存储大小
底表更新时间data_table_update_time底表更新时间
底表生命周期data_table_ttl底表生命周期
底表数据行数data_table_line_num底表数据行数
可视化建模更新类型prep_schedule_type可视化建模更新类型
可视化建模任务类型prep_task_type可视化建模任务类型
可视化建模任务例行信息prep_schedule_conf可视化建模任务例行信息
可视化建模任务执行状态prep_execute_status可视化建模任务执行状态
可视化建模总数uniq(case when resource_type= '可视化建模' then resource_id end)可视化建模总数计算字段
可视化建模最近同步结束时间prep_last_sync_end_time可视化建模最近同步结束时间
可视化建模最近同步开始时间prep_last_sync_time可视化建模最近同步开始时间
任务数(可视化建模/数据集)uniq(case when instance_schedule_time is not null then resource_id end )任务数(可视化建模/数据集)计算字段
实例IDinstance_id实例ID
实例创建时间instance_create_time实例创建时间
实例队列instance_queue实例队列
实例结束时间instance_end_time实例结束时间
实例开始时间instance_start_time实例开始时间
示例名称instance_name示例名称
实例配置信息instance_conf实例配置信息
实例任务执行时间instance_task_time实例任务执行时间
实例数uniq(instance_id)实例数
实例调度时间instance_schedule_time实例调度时间
实例执行等待时间(s)dateDiff('second', toDateTime(instance_schedule_time), toDateTime(instance_start_time))实例执行等待时间(s)计算字段
实例执行耗时(s)dateDiff('second', toDateTime(instance_start_time), toDateTime(instance_end_time))实例执行耗时(s)计算字段
示例状态instance_status示例状态
数据集生命周期dataset_ttl数据集生命周期
数据集同步类型dataset_sync_type数据集同步类型
数据集总数uniq(case when resource_type= '数据集' then resource_id end)数据集总数计算字段
图表总数uniq(case when resource_type= '图表' then resource_id end)图表总数计算字段
项目IDapp_id项目ID
项目创建时间app_create_time项目创建时间
项目更新时间app_update_time项目更新时间
项目名称app_name项目名称
项目状态app_status项目状态
项目总数uniq(app_id)项目总数
仪表盘总数uniq(case when resource_type= '仪表盘' then resource_id end)仪表盘总数计算字段
资源IDresource_id资源ID
资源创建时间resource_create_time资源创建时间
资源更新时间resource_update_time资源更新时间
资源类型resource_type资源类型
资源名称resource_name资源名称
资源删除时间resource_delete_time资源删除时间
资源所有者resource_owner资源所有者

4.3 资产关系主题数据

概述: 记录数据集/可视化建模/图表/仪表盘相互依赖关系,可用于做资产分析、资产查询及血缘查看等分析
内容:

*注:由于关联关系存储多对多的映射关系,做统计时请做去重统计

字段名表达式显示名称备注
p_datep_datep_date
可视化建模数uniq([可视化建模资源ID])可视化建模数计算字段
可视化建模资源IDprep_resource_id可视化建模资源ID
可视化建模资源创建时间prep_resource_create_time可视化建模资源创建时间
可视化建模资源名称prep_resource_name可视化建模资源名称
可视化建模资源所有者prep_resource_owner可视化建模资源所有者
数据集数uniq([数据集资源ID])数据集数计算字段
数据集资源IDdataset_resource_id数据集资源ID
数据集资源创建时间dataset_resource_create_time数据集资源创建时间
数据集资源名称dataset_resource_name数据集资源名称
数据集资源所属项目IDdataset_resource_app_id数据集资源所属项目ID
数据集资源所有者dataset_resource_owner数据集资源所有者
图表创建时间report_create_timereport_create_time
图表更新时间report_update_timereport_update_time
图表数uniq([图表资源ID])图表数计算字段
图表所有者邮箱前缀report_owner_email_prefixreport_owner_email_prefix
图表状态report_statusreport_status
图表资源IDreport_resource_id图表资源ID
图表资源创建时间report_resource_create_time图表资源创建时间
图表资源名称report_resource_name图表资源名称
图表资源所有者report_resource_owner图表资源所有者
项目IDcoalesce(app_id,dashboard_resource_app_id,report_resource_app_id,dataset_resource_app_id,prep_resource_app_id)项目ID计算字段
仪表盘IDdashboard_iddashboard_id
仪表盘更新时间dashboard_resource_update_timedashboard_resource_update_time
仪表盘数uniq([仪表盘资源ID])仪表盘数计算字段
仪表盘资源IDdashboard_resource_id仪表盘资源ID
仪表盘资源创建时间dashboard_resource_create_time仪表盘资源创建时间
仪表盘资源名称dashboard_resource_name仪表盘资源名称
仪表盘资源所有者dashboard_resource_owner仪表盘资源所有者

4.4 用户主题数据

概述: 记录不同项目下用户数据,用于统计项目变化、用户变化等分析数据

内容:

*注:不同项目配置不同,用户信息内容可能存在差异

字段名表达式显示名称备注
p_datep_datep_date日期分区字段
项目IDapp_idapp_id
项目创建时间app_create_timeapp_create_time
项目更新时间app_update_timeapp_update_time
项目名称app_name项目名称
项目状态app_statusapp_status
用户IDuser_iduser_id
用户邮箱前缀user_email_prefix用户邮箱前缀
用户创建时间user_create_timeuser_create_time
用户更新时间user_update_timeuser_update_time
用户名称user_nameuser_name
用户状态user_statususer_status
用户总数uniq(user_id)用户总数计算字段
5.FAQ

(1) 导入模板之后,没有选择替换数据集,导入后看板查询异常,应该如何解决?
- 问题原因: 导入模板后,如果没有替换数据集,此时模板数据集还是历史权限配置,在新环境下可能不生效,需要重新编辑更新权限信息

导入配置问题表现解决方案

  1. 找到导入数据集,看到权限提示异常

  2. 点击编辑数据集,更新数据集配置后保存

(2) 导入模板之后,选择替换数据集会发现很多中文和英文字段名,应该如何解决?
- 问题原因:导入的模板是规范后的数据集,数据集命名都做了优化修改,原始数据集则为英文字段名称,此时两者会同时存在,避免信息干扰,可以将引文字段全部删除,以提高可解读性。

alt