# 前言对于分析型数据库产品,通过增加服务节点实现集群水平扩容,并提升集群性能和容量,是运维的必要手段。但是对于熟悉 ClickHouse 的工程师而言,听到“扩容”二字一定会头疼不已。开源 ClickHouse 的 MPP 架... 解决自动化流程的问题,也为用户提供了性能开销更低的扩容方式。具体我们通过数据库引擎优化和操作界面优化两方面来实现。## 数据库引擎优化ByteHouse 的数据库引擎自研 `Alter Table...Resharding`命令,将一...
机型差异等问题。这样的变化会带来各种运行时问题,例如数据积压和各种故障,导致需要频繁的人工介入或者预留过量的资源造成浪费。随着流计算的规模快速增长,亟需一套运行时管控系统来自动化地的解决这些运行时问题。... 并提供了可视化平台供用户和运维人员分析使用。其内部主要涵盖了如下四种等类型的诊断规则:资源使用情况分析与建议、运行异常收集分析与建议、Flink 配置分析与建议、处理瓶颈情况分析与建议。用户可以进行自主检测...
机型差异等问题。这样的变化会带来各种运行时问题,例如数据积压和各种故障,导致需要频繁的人工介入或者预留过量的资源造成浪费。随着流计算的规模快速增长,亟需一套运行时管控系统来自动化地的解决这些运行时问题。... 并提供了可视化平台供用户和运维人员分析使用。其内部主要涵盖了如下四种等类型的诊断规则:资源使用情况分析与建议、运行异常收集分析与建议、Flink 配置分析与建议、处理瓶颈情况分析与建议。用户可以进行自主检测...
就是为了简化接入成本与运维成本,访问流量的负载均衡以及节点扩缩容可以通过调整 SLB 解决。当然如果能够实现 SDK 负载均衡与故障剔除,结合配置中心的流量调度也是非常好的解决方案。得物 TiDB 部署均采用单机单实... 比如一个表的多个 DDL 操作无法合并的问题,可以通过自动化手段降低复杂度;BIGINT 更改为 INT 这种长改短的就是日常变更规范中要管控的。* **产品流行度**- - MySQL如果我们从 MySQL 1.0 开始算起至今已经有...
机型差异等问题。这样的变化会带来各种运行时问题,例如数据积压和各种故障,导致需要频繁的人工介入或者预留过量的资源造成浪费。随着流计算的规模快速增长,亟需一套运行时管控系统来自动化地的解决这些运行时问题。... 并提供了可视化平台供用户和运维人员分析使用。其内部主要涵盖了如下四种等类型的诊断规则:资源使用情况分析与建议、运行异常收集分析与建议、Flink 配置分析与建议、处理瓶颈情况分析与建议。用户可以进行自主检测...
本文罗列了与运维监控有关的常见问题。 问题导航如何自定义告警策略? 指标数据对应的时间粒度是多少? 根因诊断如何进行? 问题列表 如何自定义告警策略?您可以前往多云CDN控制台的 告警应急 > 策略管理 页面,创建告... 根因诊断的结果包含以下信息: 出故障的对象:问题发生在 CDN 节点,还是源站? 出故障的位置:如果是 CDN 节点发生问题,具体是哪个或哪些 CDN 服务商的节点有问题;如果是源站发生问题,具体是哪个或哪些源站地址异常? ...
批量作业是火山引擎ECS打造的原生自动化运维工具,免密码、免登录即可在多台云服务器实例上执行(Shell、Python)命令。相比用户登录实例手动输入命令,或通过第三方开源运维工具(如Ansible),批量作业的使用门槛更低(不需要部署和调试),运维效率更高。 批量作业支持如下功能特性: (安装Agent的实例)可以免登录对云服务器执行命令,并查看执行结果。最高支持200个云服务器实例并发执行。 任务中可以使用系统内置的公共命令,或用户自定...
简化开发运维的流程。 连接万物连接云上中间件和数据库等产品,帮助用户打通上下游,快速构建复杂的服务系统。 省心运维提供在线测试能力、丰富的多维度监控和日志功能,满足用户可视化观测函数行为的需求,解决 debug 难题。 弹性免运维完全托管的计算服务函数全托管,无需购买和管理服务器等基础设施,将运维难题交给平台。 自动化的弹性伸缩仅需提前设置扩容上限,函数服务将根据业务请求量自动弹性扩缩容,灵活应对业务的波峰波谷。 ...
1. 概述 运维工作,是保障平台稳定运行的重要工作,本文将指导运维工程师进行快速的问题分析、问题解决,进行日常应用运维工作。本文主要从两个部分进行介绍:应用服务运维与基础组件运维,主要适用于智能数据洞察的私有化部署情况。 2. 应用服务运维说明 运维工程师可以通过 Kubernetes dashboard 对服务进行操作,也可以通过 kubectl 命令进行日常运维操作。 2.1 Kubernetes Dashboard用户可以通过如下 URL 访问 Kubernetes 页面:htt...
就是为了简化接入成本与运维成本,访问流量的负载均衡以及节点扩缩容可以通过调整 SLB 解决。当然如果能够实现 SDK 负载均衡与故障剔除,结合配置中心的流量调度也是非常好的解决方案。得物 TiDB 部署均采用单机单实... 比如一个表的多个 DDL 操作无法合并的问题,可以通过自动化手段降低复杂度;BIGINT 更改为 INT 这种长改短的就是日常变更规范中要管控的。* **产品流行度**- - MySQL如果我们从 MySQL 1.0 开始算起至今已经有...
单点故障会迅速扩散,造成大规模的连锁反应,继而影响业务稳定。针对上述问题,火山引擎云原生团队基于大量 AIGC 客户服务经验,结合针对大模型训练和在线推理业务的产品解决方案,推出 GPU 故障检测及自愈能力,帮助... 本次新推出的 GPU 故障检测及自愈能力,是云原生 AI 套件在 **AI-Infra 运维**能力上的进一步增强。它不仅能够帮助企业用户及时发现并告警 GPU 故障,还能够根据具体业务运行情况,执行用户授权的自愈恢复操作,从而...
多云管理平台解决异构的基础设施资源复杂难管理问题。平台可纳管不同环境、不同云厂商资源统一管理,并结合平台的统一监控告警、统一服务管理、统一运营管理、统一运维管理、自动化运维等能力能极大简化云用户、云运维、云运营各角色的工作复杂度,提升管理效率和资源交付效率,最终帮助企业降低云上成本,提升人员效率,加速企业的数字化转型。## 二 高可用架构云的时代需要新的技术架构,来帮助企业应用能够更好地利用云计算优势...
单点故障会迅速扩散,造成大规模的连锁反应,继而影响业务稳定。针对上述问题,火山引擎云原生团队基于大量 AIGC 客户服务经验,结合针对大模型训练和在线推理业务的产品解决方案,推出 **GPU 故障检测及自愈能力... 本次新推出的 GPU 故障检测及自愈能力,是云原生 AI 套件在 **AI-Infra 运维**能力上的进一步增强。它不仅能够帮助企业用户及时发现并告警 GPU 故障,还能够根据具体业务运行情况,执行用户授权的自愈恢复操作,从而...