You need to enable JavaScript to run this app.
导航
概述
最近更新时间:2024.04.30 16:06:39首次发布时间:2024.04.30 15:22:20

1 应用背景

随着公司数据规模的快速膨胀,垂直业务单元会越来越多,而基于大数据的业务所需要的数据不仅仅是某个垂直单元的,使用数据类型繁多的数据才能具备核心竞争力。
在跨垂直单元数据建设过程中,各种数据对不齐、指标集中梳理难、指标统一定义难、指标问题追溯难等问题突出,痛点不断。
指标一体化解决方案指标平台,是建设公司范围内指标视角的统一资产(元数据)中心,能够解决“灵活数据分析”场景下的找数据和找口径的问题;维护可共享、可视化、服务化的业务指标体系;通过“事后治理融入事中研发、事中治理融入事前设计”的产品理念,帮助业务从需求源头规范化数据建设,达到“统一口径、高质量、无重复”的目标,让数据真正“好找、敢用”。
通过指标平台,可以达到以下目标:

  • 数据标准统一,降低研发成本
    在各种场景下保证了指标/维度口径一致性,能有效减少数据生产者与消费者之间不必要的沟通,更高效支持研发工程师与业务的分工与协作,降低研发成本的同时,数据质量也有了保障。
  • 降低存储与计算成本
    数据指标精简、粒度清晰,去掉无用、重复的指标生产加工任务,可以极大地降低存储与计算成本。
  • 数据服务化
    通过指标平台可以方便地进行指标的服务化。通过指标平台对外发布的指标,其他第三方应用可以通过open api或者离线推送的方式方便快捷的获取指标数据,用于分析或者可视化;服务化之后的指标屏蔽了底层物理表,指标口径变更时使用方不需要做额外的工作。

2 功能介绍

指标平台主要包括指标字典、指标管理、指标应用、管理中心四个版块。

  • 指标字典
    提供指标字典自定义分类能力,能够帮助用户按照一定的层级和分类组织业务线下已有的指标/维度,便于查找和管理。
  • 指标管理
    提供一套指标命名及口径管理的工具(单纯的指标定义,和物理实现无关)。
    • 通过对指标进行原子、衍生、复合的拆解,进行结构化的管理。
    • 可低成本、快速创建指标/维度。
    • 可导入当前支持的数据源为模型,并在模型上构建计算逻辑关联已定义的指标/维度。
    • 可统一管理和维护指标业务口径定义、业务属性信息(如业务别名、业务背景等)。

    说明

    指标拆解过程总体包括基础信息配置和指标拆解定义:

    • 基础信息配置:数据域、业务过程、度量、修饰词、时间周期、指标单位、数据类型。
    • 指标拆解定义:原子指标、衍生指标、复合指标。
      • 原子指标:业务过程+度量。
      • 衍生指标:原子指标+修饰词(0~n)+时间周期。
      • 复合指标:衍生(复合)指标经过四则运算或加统计方法修饰词生成。
  • 指标应用
    用于登记指标应用于数据产品的相关信息。
  • 管理中心
    用于管理业务线、指标分类、扩展属性配置、数据源、标签等信息。

3 基本概念

指标平台以维度建模为理论基础,划分并定义业务线、指标、数据模型, 支持导入多种数据源构建模型,提供多样指标构建方式,消除指标二义性,保证指标数据出口一致性。
其中,指标的元信息分为业务元信息和技术信息。

  • 业务元信息包含业务定义、详细定义、业务负责人、技术负责人等(不涉及物理实现) 。
  • 技术信息包含相关模型,支持在指标平台上通过数据源直接构建模型。

指标平台相关术语解释说明如下表所示。

名词

解释说明

举例

业务线

带有业务含义的相对独立的业务空间。在相同业务线内对指标进行规范化定义,保证相同业务线下,不同产品之间指标的规范化命名和一致性定义。同时,可在业务线下进行角色、资源、权限的管理设置。

电商业务线、传媒业务线

技术指标

基于数据仓库模型设计和业务场景,进行原子指标、修饰词的抽象,基于原子指标和修饰词生成全局唯一的技术指标(包括衍生指标、复合指标)。技术指标主要用于与数仓模型字段的映射和描述指标的技术信息(包括字段类型、技术口径等)。

最近一天观看用户数、最近7天观看用户数

业务指标

在技术指标基础上去掉时间周期后生成(系统自动生成),全局唯一。业务指标主要用于业务定义的维护、业务属性的维护、指标元数据的消费。

观看用户数

数据域

是将业务过程或者维度进行抽象的集合,是否归到一个数据域,更多的是看数据是否来自同一个系统。

交易域

业务过程

不可拆分的行为事件,指在数据域下用户的动作,数据域下业务过程唯一。

下单、支付、确认收货

度量

用于生成原子指标,是业务定义中不可再拆分的指标。

订单金额

修饰词

用于描述原子指标发生的场景、满足的条件。

直播载体、商品卡载体

修饰类型

对相同类型修饰词进行归类。

载体类型

维度

数据视角下要计算的指标粒度。

商品ID、商家ID

时间周期

用来统计指标计算的时间范围,用来修饰原子指标计算的周期时间。

最近1天、最近30天

指标单位

用于表示原子指标、衍生指标、复合指标的计算单位。

元、秒

数据类型

用于表示数据存储的类型。

bigint,decimal

原子指标

需要计算的指标,但是不参与计算,只是用来归类指标,等于业务过程+度量(支付订单金额),全局唯一。

支付订单金额

衍生指标

需要计算的指标,是对原子指标在业务统计范围的一个圈定。

最近1天支付订单金额

复合指标

衍生、复合指标之间可以通过四则运算或者统计方法生成复合指标。

最近一天支付客单价=最近1天支付订单金额/最近1天支付用户数

维度

维度即进行统计的对象。通常情况下,维度是实际存在、不因事件发生就存在的实体。创建维度,即从顶层规范业务中的实体(主数据),并保证实体的唯一性。

  • 实体维度:对应一个实体,需要定义维度的主键和属性,以及维度的主从关系。
  • 码值维度:列举及标准化枚举值以标识枚举维度对象。
  • 虚拟维度:不需要提前建设管理维度信息,直接使用模型中的字段定义为虚拟维度,指标即可根据该字段做group by的查询。
  • 实体维度:主播(anchor),主键为anchor_id,有主播类型、所属工会、注册日期等属性,注册日期可以关联日期维度,所属工会关联工会维度。
  • 码值维度:0表示女,1代表男。

模型

数据模型由指标字段、维度字段组成,其数据来源可以是物理数据源,也可以是关联数据源。

数据仓库模型

指标级别

指标有不同的重要程度,对指标进行分级定义,明确业务的核心指标,并投入更多精力维护核心指标口径的正确性,可以帮助我们更好的维护一个健壮的指标体系。

  • D1:公司级指标,支撑公司战略决策,需要在公司范围内统一。
  • D2:业务级核心指标,支持业务决策和拆分D1级指标。
  • D3:其他分析型指标,灵活,常用于分析和辅助业务发展。
  • D1:日活、新增、留存
  • D2:直播时长、直播观看人数、搜索次数
  • D3:签约主播直播时长、主动搜索次数