# 基于Prometheus的企业级监控体系探索与实践## 背景我行自2018年开始从传统集中式应用架构向分布式微服务应用架构转型,2020年开始拥抱云原生体系,实现应用、平台上云。随着架构转型的不断深入,对监控体系的要求也不断提高,本文回顾我们基于Prometheus对微服务监控体系的一些探索和实践。Prometheus是CNCF基金会管理的第二个毕业项目(第一个是Kubernetes),由于其良好的架构设计和完善的生态,迅速成为了监控领域的主流解决方...
> 目前,字节跳动数据质量平台对于批处理数据的质量管理能力已经十分丰富,提供了包括表行数、空值、异常值、重复值、异常指标等多种模板的数据质量监控能力,也提供了基于spark的自定义监控能力。另外,该平台还提供了数据对比和数据探查功能,为用户在数据开发阶段及时发现数据质量问题提供了便利的手段。本文分上下两次连载,作者系**字节跳动数据平台-开发套件团队-高级研发工程师 于啸雨**。长期以来,数据质量平台的各项能力都只...
[picture.image](https://p6-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/d41aba3b9f5a47ba9927fde983eb32de~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1715790055&x-signature=5Q8GHKvnwOnaHwYwMNIdz2ABWJM%3D)目前,字节跳动数据质量平台对于批处理数据的质量管理能力已经十分丰富,提供了包括表行数、空值、异常值、重复值、异常指标等多种模板的数据质量监控能力,也提供了基于spark的自定义监控能...
> 云原生大数据是大数据平台新一代架构和运行形态。随着字节跳动内部业务的快速增长,传统大数据运维平台的劣势开始逐渐暴露,如组件繁多,安装运维复杂,与底层环境过度耦合;对业务方来说缺少开箱即用的日志、监控、告警功能等。在此背景下,我们进行了一系列云原生大数据运维管理实践。通过云原生的方式进行运维管理,最终达到弱化业务方对状态的感知,屏蔽环境的差异,统一不同环境下的使用体验。作者|字节跳动资深研发工程师-罗来锋...
# 基于Prometheus的企业级监控体系探索与实践## 背景我行自2018年开始从传统集中式应用架构向分布式微服务应用架构转型,2020年开始拥抱云原生体系,实现应用、平台上云。随着架构转型的不断深入,对监控体系的要求也不断提高,本文回顾我们基于Prometheus对微服务监控体系的一些探索和实践。Prometheus是CNCF基金会管理的第二个毕业项目(第一个是Kubernetes),由于其良好的架构设计和完善的生态,迅速成为了监控领域的主流解决方...
> 目前,字节跳动数据质量平台对于批处理数据的质量管理能力已经十分丰富,提供了包括表行数、空值、异常值、重复值、异常指标等多种模板的数据质量监控能力,也提供了基于spark的自定义监控能力。另外,该平台还提供了数据对比和数据探查功能,为用户在数据开发阶段及时发现数据质量问题提供了便利的手段。本文分上下两次连载,作者系**字节跳动数据平台-开发套件团队-高级研发工程师 于啸雨**。长期以来,数据质量平台的各项能力都只...
基础监控是平台最基本的监控功能,包括对于主机、容器、进程的CPU、磁盘、IO、iNode、内存、GPU等相关指标的监控。 前提条件非容器环境:需要主机上接入Agent k8s:需要通过DeamonSet接入Agent 其他容器环境:需要在主... 由于虚拟机管理程序从该VM“偷走”了CPU,导致该CPU对当前虚拟机不可用的时间占比。如果特定虚拟机上的"Steal Time"很高,则表明该虚拟机在过载或者负荷较大的物理主机上运行。 % cpu guest比例 host.cpu.guest_rati...
标签管理可配置自定义标签,格式为key-value。配置好的标签可打在issue上,用于筛选、归类。操作步骤 在标签管理页面,单击新建模块。 在新建模块对话框,完成配置后,单击确定。配置说明: 配置项 说明 模块名称 自定义模块名称,用于标识该模块。 标签名称 自定义标签名称,用于筛选和归类issue。 SDK上报配置可以按功能模块配置开关和各字段的采样率,以按需监控来节省、控制客户的成本。具体请参见SDK上报配置。 平台参数...
[picture.image](https://p6-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/d41aba3b9f5a47ba9927fde983eb32de~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1715790055&x-signature=5Q8GHKvnwOnaHwYwMNIdz2ABWJM%3D)目前,字节跳动数据质量平台对于批处理数据的质量管理能力已经十分丰富,提供了包括表行数、空值、异常值、重复值、异常指标等多种模板的数据质量监控能力,也提供了基于spark的自定义监控能...
1. 概述 监控告警功能可用于监控图表中的指标,提供小时、日、月粒度的实时监控。用户可通过配置监控规则、监控频率设置监控。 系统支持的告警方式目前有邮件、飞书、企业微信、Webex 钉钉。使用此模块需由企业域管理员完成办公平台集成配置,操作步骤详见办公平台集成。 如需查阅当前项目内已配置的监控并进行管理,详见项目中心-监控管理。 常见应用场景 检测维度项的变化:例如公司在多地发展了线下店铺,根据城市-店铺的名单,需监...
结合平台功能,为您提供相关技术方案,助力企业优化应用品质与性能。 功能总览本文介绍App端监控的所有功能概览。 分类 功能 说明 崩溃分析 崩溃趋势 支持iOS与Android双端多种异常崩溃类型的收集与分析,可以更... 通过事件管理添加成功的事件,可以通过事件趋势分析指标数据。 事件管理 添加事件,通过表单设置事件信息以及采样率。 电量分析 电量指标 查看Android前台电流值、电池温度。 耗电因素 对应用耗电情况进行了初...
> 云原生大数据是大数据平台新一代架构和运行形态。随着字节跳动内部业务的快速增长,传统大数据运维平台的劣势开始逐渐暴露,如组件繁多,安装运维复杂,与底层环境过度耦合;对业务方来说缺少开箱即用的日志、监控、告警功能等。在此背景下,我们进行了一系列云原生大数据运维管理实践。通过云原生的方式进行运维管理,最终达到弱化业务方对状态的感知,屏蔽环境的差异,统一不同环境下的使用体验。作者|字节跳动资深研发工程师-罗来锋...
签署 SLA 之后,平台会对任务的 SLA 进行监控。任务的 SLA 主要依据其完成时间和所承诺的 SLA 来判断,具体对应以下三种状态: 全部: 即所有签署了 SLA 的卡点任务。 未到 SLA时间: 即当前时间任务还未到 SLA 时间。可... 订阅播报的相关操作说明请参见订阅管理和 SLA管理。 1 前提条件已购买分布式数据自治服务。详细操作说明请参见 DataLeap 服务信息。 2 操作步骤登录 DataLeap 控制台。 选择数据治理 > SLA保障 > 实例监控,进入实...