则不适合近实时架构。6. ## **近实时架构方案演进**下面这张图展示的是数仓研发人员较为熟悉的离线和实时数仓的架构:从业务系统中抽取数据,ODS 层到 App 层逐层加工。离线和实时数仓的数据交互主要发生在DIM维表,对于缓慢变化的属性信息,会加工离线的数据,导入到实时的 Redis 或 HBase 存储,然后复用到实时计算中。![image.png](https://p6-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/0b7c66c1aa944d4bbcd4b3a8edbd6f58~tpl...
数据通过 Kafka 流入不同的系统。对于离线链路,数据通常流入到 Spark/Hive 中进行计算,结果通过 ETL 导入到 HBase/ES/ClickHouse 等系统提供在线的查询服务。对于实时链路, 数据会直接进入到 HBase/ES 提供高并发低时延的在线查询服务,另一方面数据会流入到 ClickHouse/Druid 提供在线的查询聚合服务。这带来的问题就像引言中所说,数据被冗余存储了多份,导致了很多一致性问题,也造成了大量的资源浪费。为了解决这个问题,我们设计...
# 背景## **HDFS** **简介**HDFS 全名 Hadoop Distributed File System,是业界使用最广泛的开源分布式文件系统。原理和架构与 Google 的 GFS 基本一致。它的特点主要有以下几项:- 和本地文件系统一样的目录... 从集群规模和数据量来说,HDFS 平台在公司内部已经成长为总数十万台级别服务器的大平台,支持了 10 EB 级别的数据量。**当前在字节跳动,** **HDFS** **承载的主要业务如下:**- Hive,HBase,日志服务,Kafka 数据...
宽列型 NoSQL 数据库(以 HBase 为代表)、时序型 NoSQL 数据库(以 InfluxDB 为代表)以及图 NoSQL 数据库(以 Neo4j 为代表)**。虽然这些类型都属于 NoSQL 数据库范畴,但是不同类型的 NoSQL 数据库所适用的场景各有不同,需要根据业务特征选择合适的 NoSQL 数据库。其中 KV 型 NoSQL 数据库适用于需要超高性能,读远多于写,并且可以容忍数据部分丢失的场景,例如作为关系型数据库的外部缓存,用于提升系统整体的读性能,减轻关系型数据...
环境信息 系统环境版本 环境 OS veLinux(Debian 10兼容版) Python2 2.7.16 Python3 3.7.3 Java ByteOpenJDK 1.8.0_352 应用程序版本 Hadoop集群 HBase集群 HDFS 2.10.2 2.10.2 YARN 2.10.2 2.10.2 MapReduce2 2.10... hue_server 4.11.0 用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序。 knox_gateway 1.5.0 用于与Hadoop生态的RESTAPI和UI交互的应用程序网关。 openldap 2.5.13 后台认证以及用户数据权限管控服务。 r...
环境信息 系统环境版本 环境 OS veLinux(Debian 10兼容版) Python2 2.7.16 Python3 3.10.13 Java ByteOpenJDK 1.8.0_352 应用程序版本 Hadoop集群 Flink集群 Kafka集群 HBase集群 StarRocks集群 ClickHouse集群 Op... hue_server 4.10.0 用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序。 knox_gateway 1.5.0 用于与Hadoop生态的RESTAPI和UI交互的应用程序网关。 openldap 2.5.13 后台认证以及用户数据权限管控服务。 r...
则不适合近实时架构。6. ## **近实时架构方案演进**下面这张图展示的是数仓研发人员较为熟悉的离线和实时数仓的架构:从业务系统中抽取数据,ODS 层到 App 层逐层加工。离线和实时数仓的数据交互主要发生在DIM维表,对于缓慢变化的属性信息,会加工离线的数据,导入到实时的 Redis 或 HBase 存储,然后复用到实时计算中。![image.png](https://p6-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/0b7c66c1aa944d4bbcd4b3a8edbd6f58~tpl...
环境信息 系统环境版本 环境 OS veLinux(Debian 10兼容版) Python2 2.7.16 Python3 3.10.13 Java ByteOpenJDK 1.8.0_352 应用程序版本 Hadoop集群 Flink集群 Kafka集群 HBase集群 StarRocks集群 ClickHouse集群 Op... hue_server 4.10.0 用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序。 knox_gateway 1.5.0 用于与Hadoop生态的RESTAPI和UI交互的应用程序网关。 openldap 2.5.13 后台认证以及用户数据权限管控服务。 r...
环境信息 系统环境版本 环境 OS veLinux(Debian 10兼容版) Python2 2.7.16 Python3 3.10.13 Java ByteOpenJDK 1.8.0_352 应用程序版本 Hadoop集群 Flink集群 Kafka集群 HBase集群 StarRocks集群 ClickHouse集群 Op... hue_server 4.10.0 用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序。 knox_gateway 1.5.0 用于与Hadoop生态的RESTAPI和UI交互的应用程序网关。 openldap 2.5.13 后台认证以及用户数据权限管控服务。 r...
数据通过 Kafka 流入不同的系统。对于离线链路,数据通常流入到 Spark/Hive 中进行计算,结果通过 ETL 导入到 HBase/ES/ClickHouse 等系统提供在线的查询服务。对于实时链路, 数据会直接进入到 HBase/ES 提供高并发低时延的在线查询服务,另一方面数据会流入到 ClickHouse/Druid 提供在线的查询聚合服务。这带来的问题就像引言中所说,数据被冗余存储了多份,导致了很多一致性问题,也造成了大量的资源浪费。为了解决这个问题,我们设计...
宽列型 NoSQL 数据库(以 HBase 为代表)、时序型 NoSQL 数据库(以 InfluxDB 为代表)以及图 NoSQL 数据库(以 Neo4j 为代表)**。虽然这些类型都属于 NoSQL 数据库范畴,但是不同类型的 NoSQL 数据库所适用的场景各有不同,需要根据业务特征选择合适的 NoSQL 数据库。其中 KV 型 NoSQL 数据库适用于需要超高性能,读远多于写,并且可以容忍数据部分丢失的场景,例如作为关系型数据库的外部缓存,用于提升系统整体的读性能,减轻关系型数据...
环境信息 系统环境版本 环境 OS veLinux(Debian 10兼容版) Python2 2.7.16 Python3 3.7.3 Java ByteOpenJDK 1.8.0_302 应用程序版本 Hadoop 集群 Flume 1.9.0 OpenLDAP 2.4.58 Ranger 1.2.0 ZooKeeper 3.7.0 Flink 1.15.1 HDFS 2.10.2 MapReduce2 2.10.2 YARN 2.10.2 Airflow 2.4.2 Hive 2.3.9 Hue 4.9.0 Knox 1.5.0 Presto 0.267 Trino 365 Spark 2.4.8 Sqoop 1.4.7 Tez 0.10.1 Iceberg 0.12.0 Impala 3.4.1 Kudu 1.14.0 HBase ...
环境信息版本 环境 OS veLinux(Debian 10兼容版) Python2 2.7.16 Python3 3.10.13 Java ByteOpenJDK 1.8.0_352 系统环境应用程序版本 Hadoop集群 Flink集群 Kafka集群 Pulsar集群 Presto集群 Trino集群 HBase集群 ... hue_server 4.11.0 用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序。 knox_gateway 1.5.0 用于与Hadoop生态的RESTAPI和UI交互的应用程序网关。 openldap 2.5.13 后台认证以及用户数据权限管控服务。 r...