You need to enable JavaScript to run this app.
最新活动
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

数据仓库与数据挖掘技术孙水华

从数据接入、查询分析到可视化展现,提供一站式洞察平台,让数据发挥价值

社区干货

观点|SparkSQL在企业级数仓建设的优势

数据仓库的事实标准和数据处理工具,Hive已经不单单是一个技术组件,而是一种设计理念。Hive有JDBC客户端,支持标准JDBC接口访问的HiveServer2服务器,管理元数据服务的Hive Metastore,以及任务以MapReduce分布式... 并且和Ranger结合可以做到更细粒度的行列权限级别,拥有较好的数据安全。* 集成成本低:MapReduce只支持编程态的接口,并且不支持迭代计算,Hive封装了MapReduce提供SQL的接口,可以很低成本的和上层数据挖掘,数据分析...

SparkSQL 在企业级数仓建设的优势

**惊帆** 来自 字节跳动数据平台 EMR 团队# 前言Apache Hive 经过多年的发展,目前基本已经成了业界构建超大规模数据仓库的事实标准和数据处理工具,Hive 已经不单单是一个技术组件,而是一种设计理念。Hive 有... 并且和Ranger结合可以做到更细粒度的行列权限级别,拥有较好的数据安全。- 集成成本低:MapReduce只支持编程态的接口,并且不支持迭代计算,Hive封装了MapReduce提供SQL的接口,可以很低成本的和上层数据挖掘,数据分...

LAS Spark 在 TPC-DS 的优化揭秘

这个测试集包含对大数据集的统计、报表生成、联机查询、数据挖掘等复杂应用,测试用的数据和值有倾斜,与真实数据一致。可以说 TPC-DS 是一个与真实场景非常接近的测试集,难度较大,覆盖场景广,能有效反应不同业务的需求。TPC-DS 的这个特点与大数据的分析挖掘应用非常类似。Hadoop 等大数据分析技术也是对海量数据进行大规模的数据分析和深度挖掘,也包含交互式联机查询和统计报表类应用,同时大数据的数据质量较低,数据分布真实而...

以 100GB SSB 性能测试为例,通过 ByteHouse 云数仓开启你的数据分析之路

> 更多技术交流、求职机会,欢迎关注**字节跳动数据平台微信公众号,回复【1】进入官方交流群**## I. 传统数仓的演进:云数仓近年来,随着数据“爆炸式”的增长,越来越多的数据被产生、收集和存储。而挖掘海量数据中的真实价值,从其中提取商机并洞见未来,则成了现代企业和组织不可忽视的命题。 随着数据量级和复杂度的增大,数据分析处理的技术架构也在不断演进。在面对海量数据分析时,传统 OLAP 技术架构中的痛点变得越来...

特惠活动

域名注册服务

cn/top/com等热门域名,首年低至1元,邮箱建站必选
1.00/首年起32.00/首年起
立即购买

热门爆款云服务器

100%性能独享,更高内存性能更佳,学习测试、web前端、企业应用首选,每日花费低至0.55元
60.00/1212.00/年
立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗,加速分发更实惠
2.00/20.00/年
立即购买

数据仓库与数据挖掘技术孙水华-优选内容

观点|SparkSQL在企业级数仓建设的优势
数据仓库的事实标准和数据处理工具,Hive已经不单单是一个技术组件,而是一种设计理念。Hive有JDBC客户端,支持标准JDBC接口访问的HiveServer2服务器,管理元数据服务的Hive Metastore,以及任务以MapReduce分布式... 并且和Ranger结合可以做到更细粒度的行列权限级别,拥有较好的数据安全。* 集成成本低:MapReduce只支持编程态的接口,并且不支持迭代计算,Hive封装了MapReduce提供SQL的接口,可以很低成本的和上层数据挖掘,数据分析...
SparkSQL 在企业级数仓建设的优势
**惊帆** 来自 字节跳动数据平台 EMR 团队# 前言Apache Hive 经过多年的发展,目前基本已经成了业界构建超大规模数据仓库的事实标准和数据处理工具,Hive 已经不单单是一个技术组件,而是一种设计理念。Hive 有... 并且和Ranger结合可以做到更细粒度的行列权限级别,拥有较好的数据安全。- 集成成本低:MapReduce只支持编程态的接口,并且不支持迭代计算,Hive封装了MapReduce提供SQL的接口,可以很低成本的和上层数据挖掘,数据分...
LAS Spark 在 TPC-DS 的优化揭秘
这个测试集包含对大数据集的统计、报表生成、联机查询、数据挖掘等复杂应用,测试用的数据和值有倾斜,与真实数据一致。可以说 TPC-DS 是一个与真实场景非常接近的测试集,难度较大,覆盖场景广,能有效反应不同业务的需求。TPC-DS 的这个特点与大数据的分析挖掘应用非常类似。Hadoop 等大数据分析技术也是对海量数据进行大规模的数据分析和深度挖掘,也包含交互式联机查询和统计报表类应用,同时大数据的数据质量较低,数据分布真实而...
以 100GB SSB 性能测试为例,通过 ByteHouse 云数仓开启你的数据分析之路
> 更多技术交流、求职机会,欢迎关注**字节跳动数据平台微信公众号,回复【1】进入官方交流群**## I. 传统数仓的演进:云数仓近年来,随着数据“爆炸式”的增长,越来越多的数据被产生、收集和存储。而挖掘海量数据中的真实价值,从其中提取商机并洞见未来,则成了现代企业和组织不可忽视的命题。 随着数据量级和复杂度的增大,数据分析处理的技术架构也在不断演进。在面对海量数据分析时,传统 OLAP 技术架构中的痛点变得越来...

数据仓库与数据挖掘技术孙水华-相关内容

干货 | 看 SparkSQL 如何支撑企业级数仓

本文作者:惊帆 来自于数据平台 EMR 团队# 前言Apache Hive 经过多年的发展,目前基本已经成了业界构建超大规模数据仓库的事实标准和数据处理工具,Hive 已经不单单是一个技术组件,而是一种设计理念。Hive 有 JDB... 拥有较好的数据安全。- 集成成本低:MapReduce 只支持编程态的接口,并且不支持迭代计算,Hive 封装了 MapReduce 提供 SQL 的接口,可以很低成本的和上层数据挖掘,数据分析工具进行集成。所以虽然 Hive 出现已经非...

「火山引擎」数智平台 VeDI 数据中台产品季刊 VOL.10

「大数据研发治理套件 DataLeap」「云原生数据仓库 ByteHouse」「湖仓一体分析服务 LAS」「云原生开源大数据平台 E-MapReduce」四款数据中台产品的功能迭代、重点功能介绍、平台最新活动、技术干货文章等多个有趣、... 同步进行分词处理和数据挖掘,之后用EMR-HSQL任务进行逻辑加工并归档到Hive,最终用EMR-报表任务将数据以邮件方式发给各渠道负责人。 - **广告投放效果跟踪-准实时分析查询**:广告主基于EMR StarRocks构建分钟...

Apache Pulsar 在火山引擎 EMR 的集成与场景

通过数据集成进入到数据湖中,然后经过数据开发、治理过程,进入到专题集市,最后通过数据分析平台提供给数据的最终用户,包括 BI 报表、离线分析、实时分析、即席查询、数据挖掘等。以上是用户搭建大数据体系的一条... 该消息队列为大数据链路的第一站。从该消息队列开始,数据会继续向下游的离线 Hive 表或者实时数仓的下游消息队列流动。在此场景下,作为整个大数据体系的源头,消息队列连通业务系统和数据仓库,将大数据体系外面的数...

域名注册服务

cn/top/com等热门域名,首年低至1元,邮箱建站必选
1.00/首年起32.00/首年起
立即购买

热门爆款云服务器

100%性能独享,更高内存性能更佳,学习测试、web前端、企业应用首选,每日花费低至0.55元
60.00/1212.00/年
立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗,加速分发更实惠
2.00/20.00/年
立即购买

LAS Spark 在 TPC-DS 的优化揭秘

> 更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群文章主要介绍了火山引擎湖仓一体分析服务 LAS Spark(下文以 LAS Spark 指代)在 TPC-DS 上的性能突破与优化策略。TPC-DS 是一个模拟复杂数据仓库环境的测试基准,LAS Spark 通过采用规则优化、缓存优化和运行时优化三类优化策略,实现了超越社区版本的巨大性能提升,且已在内部生产环境得到验证。**文末更有专属彩蛋,新人优惠购福利,等着你来...

第一现场 | 从业务来,往To B去:字节跳动数据平台的9年演变

第四范式研发副总裁/基础技术负责人郑曌、经纬中国高级投资经理谢岩**围绕“数字化实践”等多个主题进行了经验分享。**随着互联网流量红利的日渐消退,部分企业正通过“数据驱动”挖掘更深层次的业务价值,进入精... 智能数据洞察DataWind、增长分析 DataFinder 、 A/B 测试 DataTester、客户数据平台VeCDP、增长营销平台GMP、大数据研发套件DataLeap和云原生数据仓库ByteHouse等在字节跳动内部支持服务比较好的产品和经验,已经实...

干货|从MySQL到ByteHouse,抖音精准推荐存储架构重构解读

[picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/c920cf14da69409f906a3ec908908ed3~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1713543609&x-signature=XHjLsxKs5uB92FFx1nk0lPuqSeo%3D) 底层存储架构从MySQL到ByteHouse的重构,将抖音精准推荐的查询效率平均提升了近百倍。**点击阅读原文可下载《云原生数据仓库ByteHouse技术白皮书》。** ![picture.image]...

干货| 火山引擎DataLeap的Data Catalog系统公有云实践

会收集技术数据,并在其基础上提供更丰富的业务上下文与语义,通常支持元数据编目、查找、详情浏览等功能。目前Data Catalog作为火山引擎大数据研发治理套件DataLeap产品的核心功能之一,经过多年打磨,服务于字节跳... Data Catalog公有云产品是基于火山引擎提供的数据引擎和云基础设施来部署和服务的,下面会简单介绍下我们所依赖和使用的产品和服务:* **数据引擎:** 是火山引擎提供的数据分析、数据仓库和数据湖相关产品,包括Byt...

字节跳动的开源历程与价值思考

我们就广泛采用开源技术来快速打造技术中台,推动了字节跳动包括抖音、头条等业务的发展。随着开源使用的深入,我们根据自身的业务场景对开源技术进行优化改进,并反馈到社区当中,逐步开始参与开源贡献。当贡献累积越... 进行全量代码仓库扫描和蓝军定向挖掘等,同时也组织了开源合规相关的培训课程。开源合规的落地包含了非常多的细节,团队的构成也包括了法务、安全、工具、合规、QA、研发、产品多个职能。目前团队已经引入业界成熟...

聚焦用户精细化运营场景,极客邦科技与火山引擎数智平台达成合作

正是看中了 VeDI 在数据技术上的多重能力和实践经验,“我们希望能够借助更科学的方法,进一步了解用户的需求,最终通过升级服务让客户有更好的体验。” 现阶段,火山引擎数智平台 VeDI 已经向极客邦科技输出包括增长分析 DataFinder、实时数据仓库 ByteHouse 等在内的三款数据产品,核心解决数据洞察和数据存储、分析三大问题。 其中,增长分析 DataFinder 主要帮助极客邦科技洞察用户全链路旅程,通过埋点手段,DataFinder...

特惠活动

域名注册服务

cn/top/com等热门域名,首年低至1元,邮箱建站必选
1.00/首年起32.00/首年起
立即购买

热门爆款云服务器

100%性能独享,更高内存性能更佳,学习测试、web前端、企业应用首选,每日花费低至0.55元
60.00/1212.00/年
立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗,加速分发更实惠
2.00/20.00/年
立即购买

产品体验

体验中心

云服务器特惠

云服务器
云服务器ECS新人特惠
立即抢购

白皮书

数据智能知识图谱
火山引擎数智化平台基于字节跳动数据平台,历时9年,基于多元、丰富场景下的数智实战经验打造而成
立即获取

最新活动

爆款1核2G共享型服务器

首年60元,每月仅需5元,限量秒杀
立即抢购

火山引擎增长体验专区

丰富能力激励企业快速增长
查看详情

数据智能VeDI

易用的高性能大数据产品家族
了解详情

一键开启云上增长新空间

立即咨询