You need to enable JavaScript to run this app.
导航

教程说明

最近更新时间2024.02.02 19:28:41

首次发布时间2022.09.19 22:01:38

面向对象:主要面向大数据团队、数仓等技术同学,企业认证后即可在火山引擎公有云环境体验DataLeap数据开发特惠版。
教程时长:2小时。
学习目标:帮助需要数据分析和数仓团队同学,快速体验和了解DataLeap产品功能及用法,方便在后期的使用和学习。

1 开发流程介绍

1.1 流程阶段

目的:以一个项目的完整开发流程为背景做介绍任务关键节点和任务

  • 前期步骤:开始workshop的必要条件,需完成前置开通并确保服务状态可用
  • 数仓建设:含数据导入集成,数据加工任务,调度以及项目任务发布上线
  • 任务运维: 含数据回溯初始化查询,运行规则,实例运维情况及日志监控
  • 安全管理: 对数据对象授权,申请访问,敏感列等信息屏蔽按需提交申请
  • 资产管理: 数据检索和资产信息查找,数据血缘分析,复查专题建设和管理

1.2 核心链路

图片

1.3 场景详情

序号

Demo场景

具体描述

步骤

关注点

角度

用户及项目管理

账号注册开通,服务购买,子账号注册,创建项目,库表专题等内容

  1. 新建用户:主账号在控制台创建用户子账号,并完成账户充值和产品购买操作;
  2. 创建项目:子账号在控制台-项目管理模块,新建项目,完成基础配置,添加成员账号并授予相关角色;
  3. 角色策略权限,LAS队列权限分配;
  4. 公开项目控制:创建专题设置,库表创建等。
  • 注册及购买流程。
  • 体验产品前的前置准备工作。

功能、安全、易用

离线数仓建设

模拟数仓开发链路,对数据进行加工处理。也可通过数据回溯,进行补数据或重刷历史数据。

  1. 数仓建表:结合业务需求,完成离线数仓建表,通过DDL或导航式创建LAS表;
  2. 数据采集和加工:将源端原始表数据通过数据集成到LAS,新建LAS SQL任务,对LAS表进行加工、处理;
  3. 调度作业:完成任务的调度配置,根据业务需求设置周期调度,调试并提交,经过复查后确认上线作业,保证生产安全;
  4. 监控运维:配置运行监控,监控任务运行状态。
  • 数仓规范:可从主题、层级等多维度,查询并管理数仓LAS表。
  • 数据开发:工作流/任务开发、调试及上线流程的规范性,调度配置支持场景的丰富性,调度系统的效率及稳定性。

功能、规范、易用、性能、稳定

任务运维

通过智能运维中心,对开发发布后任务进行运行规则监控,监控规则设置和阈值提醒,了解任务血缘依赖关系

  1. 对任务运行规则设置;
  2. 设置监控预警,发送形式监控阈值配置;
  3. 对任务运维中的任务血缘依赖DAG;
  4. 实例运维了解任务启动和调度情况,操作日志,任务日志查看;
  5. 数据回溯:发起回溯计划,进行补数据或重刷历史数据。结合业务重要程度,设置项目或任务粒度的回溯审批控制,审批通过后,回溯计划即可进行。
  • 监控规则的复用性。
  • 预警提醒的灵活性。
  • 实例运维的及时性。

稳定、易用、敏捷、预警

数据安全

结合用户身份,和业务需求,对数据的读写权限进行严格控制,并提供完整、规范的审批流程。

  1. 数据获权:申请LAS表的读、写权限;
  2. 数据授权:表的权限审批人,审批权限申请,并授予该账号表的权限;
  3. 数据鉴权:在未申请时,通过数据开发-临时查询,编写SQL读写该表数据,系统阻断操作;申请通过后,可读写该表的数据;
  4. 授权管理敏感列信息隐藏申请。
  • 任务运维:任务及实例的操作,DAG展示,运行状态、质量监控及邮件告警。
  • 数据回溯:规范的回溯审批流程,丰富的回溯策略,保障生产运行稳定、安全。
  • 权限:时效性、安全性、完整性,敏感列设置。
  • 审批:审批流程的规范性及完整性。

功能、易用、安全

数据地图

查看数据专题,数据检索,数据资产血缘关系,列级别数据回溯追踪

  1. 专题建设情况及数据资产查看检索;
  2. 数据对象的血缘依赖关系呈现;
  3. 字段级上下游依赖配置。
  • 数仓专题建设完整性,资产管理的便捷性。
  • 血缘依赖的上下游链路是否完整,是否可追踪。
  • 资产权限信息是否易于检索和查找。

资产、血缘、检索

  • 层级介绍

层级

英文缩写

层级说明

备注

原始数据层

ods

贴近数据源的粗糙数据

获取业务原始数据

通用维度层

dim

沉淀一致性的维度

静态的维表数据

事实明细层

dwd

事实表的明细粒度数据

基本信息等明细数据

汇总应用层

dwm

面向业务过程提供数据汇总

形成轻度汇总数据