You need to enable JavaScript to run this app.
最新活动
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

数据质量监控

火山引擎 E-MapReduce 支持构建开源 Hadoop 生态的企业级大数据分析系统,完全兼容开源,提供 Hadoop、Spark、Hive、Flink 集成和管理,帮助用户轻松完成企业大数据平台的构建,降低运维门槛,快速形成大数据分析能力

社区干货

干货|字节跳动基于Flink SQL的流式数据质量监控

> 目前,字节跳动数据质量平台对于批处理数据质量管理能力已经十分丰富,提供了包括表行数、空值、异常值、重复值、异常指标等多种模板的数据质量监控能力,也提供了基于spark的自定义监控能力。另外,该平台还提供了数据对比和数据探查功能,为用户在数据开发阶段及时发现数据质量问题提供了便利的手段。本文分上下两次连载,作者系**字节跳动数据平台-开发套件团队-高级研发工程师 于啸雨**。长期以来,数据质量平台的各项能力都只...

干货|字节跳动基于Flink SQL的流式数据质量监控(上)技术调研及选型

[picture.image](https://p6-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/cb3c911f406c41e9af89d23b719195b5~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1713975625&x-signature=QJ4O8rIezclBOyK8sOVnQ8vAup0%3D)目前,字节跳动数据质量平台对于批处理数据的质量管理能力已经十分丰富,提供了包括表行数、空值、异常值、重复值、异常指标等多种模板的数据质量监控能力,也提供了基于spark的自定义监控能...

干货|一套架构框架满足流批数据质量监控

抖音等不同产品线的复杂数据质量场景,字节跳动数据质量平台如何满足多样的需求?本文将介绍我们在弥合大数据场景下数据质量校验与计算消耗资源大、校验计算时间长的冲突等方面的经验,同时介绍火山引擎数据质量平台是如何用一套架构框架来满足流批方面的数据质量监控。 ![picture.image](https://p6-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/99b734c7be174f4fb501cb7e5d989f29~tplv-tlddhu82om-image.image?=...

构建满足流批数据质量监控用火山引擎DataLeap

> 更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 面对今日头条、抖音等不同产品线的复杂数据质量场景,火山引擎 DataLeap 数据质量平台如何满足多样的需求?本文将介绍我们在弥合大数据场景下数据质量校验与计算消耗资源大、校验计算时间长的冲突等方面的经验,同时介绍火山引擎 DataLeap 数据质量平台是如何用一套架构框架来满足流批方面的数据质量监控。# 什么是数据质量管理广义...

特惠活动

视频云ImageX媒资存储50G

分布式存储,可靠性高,全链路图像服务
1.00/6月24.07/6月
立即购买

视频云ImageX分发流量100G

国内丰富CDN节点,高速稳定分发
1.00/6月18.00/6月
立即购买

域名注册服务

cn/top/com等热门域名,首年低至1元,邮箱建站必选
1.00/首年起32.00/首年起
立即购买

数据质量监控-优选内容

干货|字节跳动基于Flink SQL的流式数据质量监控
> 目前,字节跳动数据质量平台对于批处理数据质量管理能力已经十分丰富,提供了包括表行数、空值、异常值、重复值、异常指标等多种模板的数据质量监控能力,也提供了基于spark的自定义监控能力。另外,该平台还提供了数据对比和数据探查功能,为用户在数据开发阶段及时发现数据质量问题提供了便利的手段。本文分上下两次连载,作者系**字节跳动数据平台-开发套件团队-高级研发工程师 于啸雨**。长期以来,数据质量平台的各项能力都只...
干货|字节跳动基于Flink SQL的流式数据质量监控(上)技术调研及选型
[picture.image](https://p6-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/cb3c911f406c41e9af89d23b719195b5~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1713975625&x-signature=QJ4O8rIezclBOyK8sOVnQ8vAup0%3D)目前,字节跳动数据质量平台对于批处理数据的质量管理能力已经十分丰富,提供了包括表行数、空值、异常值、重复值、异常指标等多种模板的数据质量监控能力,也提供了基于spark的自定义监控能...
干货|一套架构框架满足流批数据质量监控
抖音等不同产品线的复杂数据质量场景,字节跳动数据质量平台如何满足多样的需求?本文将介绍我们在弥合大数据场景下数据质量校验与计算消耗资源大、校验计算时间长的冲突等方面的经验,同时介绍火山引擎数据质量平台是如何用一套架构框架来满足流批方面的数据质量监控。 ![picture.image](https://p6-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/99b734c7be174f4fb501cb7e5d989f29~tplv-tlddhu82om-image.image?=...
构建满足流批数据质量监控用火山引擎DataLeap
> 更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 面对今日头条、抖音等不同产品线的复杂数据质量场景,火山引擎 DataLeap 数据质量平台如何满足多样的需求?本文将介绍我们在弥合大数据场景下数据质量校验与计算消耗资源大、校验计算时间长的冲突等方面的经验,同时介绍火山引擎 DataLeap 数据质量平台是如何用一套架构框架来满足流批方面的数据质量监控。# 什么是数据质量管理广义...

数据质量监控-相关内容

流式数据监控

流式数据监控依据监控规则,对消息队列 Kafka 版流式数据进行监控。本文将为您介绍如何设置并管理数据质量监控规则、报警提醒等。 1 前提条件已在概览页面购买大数据分析、湖仓一体、DataOps 敏捷研发或分布式数据自治解决方案。 已在消息队列 Kafka 版控制台创建消息队列 Kafka 版实例和 Topic。欲了解相关操作,可参见创建实例和创建Topic。 在项目的数据源管理页面,已配置 Kafka 数据源。欲了解相关操作,可参见配置数据源。 2 ...

火山引擎DataLeap数据质量解决方案和最佳实践(二):解决方案

> 更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群## **DataLeap** **流批数据质量解决方案****产品功能** **架构**火山引擎DataLeap流批数据质量解决方案有 4 个大的功能:- **离线数据质量监控**:解决批和微批监控场景,支持 Hive、ClickHouse、ES 等多种数据源,并有字段、唯一性等多种监控维度,允许通过 SQL 自定义维度聚合进行监控。- **流式数据质量监控**:解决流式监控场景...

对话抖音电商:量级庞大、参差不齐,“数据质量治理”有妙招!

数据体量庞大的情况下,难以避免数据缺失、纬度错误、产出延时等问题,这与数据质量管理息息相关。 本文对话抖音电商团队,为你揭秘庞大数据体量下的数据质量管理最佳实践。 据抖音电商数据团队介绍,目前数据质量问题集中体现在:历史数据繁多,导致无法准确定位异常数据;缺乏合理的监控规则;补齐表监控规则时间、人力成本高等。 为了高效、便捷实现数据质量监控,抖音电商数据团队引入火山引擎 DataLeap 数据质量...

视频云ImageX媒资存储50G

分布式存储,可靠性高,全链路图像服务
1.00/6月24.07/6月
立即购买

视频云ImageX分发流量100G

国内丰富CDN节点,高速稳定分发
1.00/6月18.00/6月
立即购买

域名注册服务

cn/top/com等热门域名,首年低至1元,邮箱建站必选
1.00/首年起32.00/首年起
立即购买

火山引擎流批数据质量解决方案和最佳实践

火山引擎的数据质量平台是在多年服务字节跳动今日头条、抖音等业务的过程中打磨出来的。 面对今日头条、抖音等不同产品线的复杂数据质量场景,数据质量平台如何满足多样的需求?本文将介绍火山引擎数据质量平台是如何弥合大数据量场景下数据质量校验与计算资源消耗大、校验计算时间长的冲突,并介绍数据质量平台是如何用一套架构框架来同时满足流批方面的数据质量监控。## 什么是数据质量广义上来说,数据质量的定义是数据满足...

火山引擎流批数据质量解决方案和最佳实践

火山引擎的数据质量平台是在多年服务字节跳动今日头条、抖音等业务的过程中打磨出来的。面对今日头条、抖音等不同产品线的复杂数据质量场景,数据质量平台如何满足多样的需求?本文将介绍火山引擎数据质量平台是如何弥合大数据场景下数据质量校验与计算消耗资源大、校验计算时间长的冲突,并介绍数据质量平台是如何用一套架构框架来满足流批方面的数据质量监控。 作者|Frank,火山引擎高级研发工程师 ...

火山引擎DataLeap数据质量动态探查及相关前端实现

火山引擎DataLeap数据探查上线之前,数据验证都是通过写SQL方式进行查询的,从编写SQL,到解析运行出结果,不仅时间长,还会反复消耗计算资源,探查上线后,只需要一次探查,就可以得到整张表的探查报告,但后续我们还发现了一些问题,主要有三点:1. 无法看到探查的数据明细以及关联的行详情,无法对数据进行预处理操作。2. 探查还是需要资源调度,等待时长平均分钟级。3. 与质量监控没有打通,探查数据的后续走向不明确。针对这些问题,...

火山引擎DataLeap数据质量解决方案和最佳实践(三):最佳实践

> 更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群## **最佳实践**前面介绍了DataLeap数据质量平台的一些实现方式,下面为大家介绍一些我们在数据量和资源这两个方面的最佳实践。**表行数信息-优先** **HMS** **获取**内部的离线监控中,表行数的监控占比非常大,可能至少 50% 以上的离线规则都是表行数的监控。对于表行数,之前我们是通过 Spark,Select Count* 提交作业,对资源的消耗非...

干货 | 字节跳动数据质量动态探查及相关前端实现

数据探查上线之前,数据验证都是通过写SQL方式进行查询,从编写SQL,到解析运行出结果,不仅时间长,还会反复消耗计算资源。探查上线后,只需要一次探查,就可以得到整张表的探查报告,**但后续也存在相关问题,主要有三点:**1. 无法看到探查的数据明细以及关联的行详情,无法对数据进行预处理操作。2. 探查还是需要资源调度,等待时长平均分钟级。3. 与质量监控没有打通,探查数据的后续走向不明确。针对这些问题,我们进一步开发了动态探...

分布式数据治理

2 数据质量事前数据探查:支持动态探查、对数据进行事前测试,查看内容的分布和数据特征,保证数据符合业务预期,避免下游用户因为数据错误导致决策失误。 数据质量监控:包括离线数据质量监控和流式数据质量监控,同时提供了一些丰富的规则和策略,业务上可以是直接去使用。包含了自定义 SQL 逻辑,对单表多表的批量设置规则,平台提供了丰富的质量规则逻辑条件可供用户引用。 强/弱规则不同处理机制:触发弱质量规则校验报警时,关联的生...

特惠活动

视频云ImageX媒资存储50G

分布式存储,可靠性高,全链路图像服务
1.00/6月24.07/6月
立即购买

视频云ImageX分发流量100G

国内丰富CDN节点,高速稳定分发
1.00/6月18.00/6月
立即购买

域名注册服务

cn/top/com等热门域名,首年低至1元,邮箱建站必选
1.00/首年起32.00/首年起
立即购买

产品体验

体验中心

云服务器特惠

云服务器
云服务器ECS新人特惠
立即抢购

白皮书

中国云原生安全市场现状与趋势白皮书
云原生安全成为企业全面实施云战略的保障随着云计算成为千行百业数字化转型的核心驱动力,企业上云的步伐不断加速,云上开发已成为企业构筑数字化业务的首选。
立即获取

最新活动

爆款1核2G共享型服务器

首年60元,每月仅需5元,限量秒杀
立即抢购

火山引擎增长体验专区

丰富能力激励企业快速增长
查看详情

数据智能VeDI

易用的高性能大数据产品家族
了解详情

一键开启云上增长新空间

立即咨询