You need to enable JavaScript to run this app.

火山引擎获评中国信通院混沌工程实验室2022年杰出贡献成员单位

最近更新时间2023.02.09 11:44:40

首次发布时间2023.02.09 11:44:40

近日,中国信通院混沌工程实验室表彰了在系统稳定性领域有杰出贡献的企业。火山引擎凭借领先的产品和解决方案,以及长期以来助力企业全局、精准、高效进行复杂系统稳定性建设的工作,获评中国信通院混沌工程实验室2022年度杰出贡献成员单位,火山引擎资深工程师邓德杨获评混沌工程实验室 “系统稳定性标准化专家”称号。

混沌工程实验室由中国信通院于2021年牵头成立,围绕保障企业云上系统稳定性、提升服务连续性、促进业务高质量发展开展工作,目前已经吸引近百家成员加入。火山引擎早在实验室筹备成立之初便开始参与相关工作,并在2021年12月升任实验室副理事长单位,深度参与包括混沌工程、可观测性、全链路压测、变更管控、应用多活等能力域的企业最佳实践经验总结和行业标准设计。

随着云计算的发展和数字化转型的不断推进,应用上云已成为不可逆转的趋势。当前,越来越多企业应用正向着云原生架构演进,平台从原来相对单一的微服务场景和单机场景进一步扩展到云原生场景,企业云架构逐渐转变为混合多云等更复杂的系统,这些都为业务系统的稳定性带来了巨大挑战。企业系统自身的复杂性、跨云场景及不断增长的业务规模,也使得系统稳定性保障工作面临更多的不确定性。

混沌工程作为保障分布式系统稳定性的重要技术,通过主动引入故障的方式来验证分布式系统的稳定性,是检验、增强分布式系统韧性的有效工具,为推动企业IT系统韧性建设提供了强大助力。

火山引擎有着多年稳定性治理经验。在字节跳动业务快速发展过程中,火山引擎自研的混沌工程平台,为抖音、今日头条、飞书等业务提供涵盖演练策划管理、故障执行、场景沉淀、风险发现与跟进等全流程服务,平均每月故障注入数量超万次。

2022年,火山引擎基于内部平台建设经验,推出云原生高可用产品应用韧性增强服务(Application Resilience Enhancement Service,ARES),它遵循混沌工程实验原理,可提供丰富的故障场景,帮助企业提升分布式系统的容错性和可恢复性,增强系统和应用的韧性,满足企业对系统和应用的高可用需求。

如上图所示,火山引擎应用韧性增强服务ARES支持实验配置、实验流程编排、实验观测、实验报告与风险统计、演练活动、高可用演练方案、个人工作台、稳态假说等几大功能,通过故障注入来检验系统的稳定性成熟度,然后不断优化系统。当前产品包含故障的事前、事中、事后三个阶段,每个阶段解决如下几个核心点:

  • 事前

  • 故障来源:故障来源主要通过线上真实发生的故障或者专家经验产生的故障类型,进行混沌工程的故障注入,模拟线上真实故障。

  • 演练环境:根据用户的条件以及系统的韧性程度,前期推荐在测试环境进行演练,随着系统韧性的提升,最终尽可能接近线上或者在线上进行演练。

  • 事中

  • 流量来源:通过生产环境流量镜像或者流量模拟,在故障注入后,对实验结果进行验证。

  • 架构感知验证及排障:架构感知是通过全链路监控,构造出整个服务链路及依赖拓扑,进行精准演练和排障等。可进行可视化演练、强弱依赖分析、服务韧性分析等。

  • 服务高可用防护:混沌工程不能只有攻击,还需要有防护来验证系统的韧性程度,例如流量、熔断、降级、网关等防护。

  • 服务监控:产品可以把演练目标集群的指标接入平台,然后产生故障数据并分析数据。验证“事中”告警的准确性以及为“事后”韧性分析提供数据源。

  • 事后

  • 故障效果验证:由于混沌工程底层故障是通过模拟产生,不完全是真实线上的故障类型,因此需要对服务维度和底层模拟的故障数据进行故障注入的准确性和时效性验证。

  • 服务SLA:无法满足服务SLA将为团队造成巨大的损失。因此,提升SLA质量是系统韧性很重要的一环。需要衡量MTTR、MTTA等风险跟进指标。

  • 系统韧性分析:通过不同维度和不同程度的故障注入实验,根据产生的结果进行数据分析,评估出系统的韧性度(成熟度)等级,并梳理出系统优化方案,增强用户抵御线上突发故障的信心。例如,系统的性能拐点、瓶颈、爆炸半径控制、容忍度、容错率等。

  • 优化系统:通过系统韧性分析、监控、告警等结果,分析出系统瓶颈及缺陷,不断优化系统性能,改正错误。

在行业应用方面,当前应用韧性增强服务ARES已与泛互联网、汽车、金融等行业的头部企业展开深入合作并完成落地。在能力验证上,火山引擎混沌工程平台经受住了央视春晚红包雨、抖音世界杯等大规模复杂流量场景的打磨,可提供极致技术保障。

未来,火山引擎将继续打磨混沌工程相关产品和解决方案,参与混沌工程领域相关工作,协助混沌工程实验室构建针对稳定性建设者、稳定性赋能者以及云服务稳定运行能力的稳定性保障标准体系,为国内系统稳定性保障能力建设持续提供发展动力。