You need to enable JavaScript to run this app.

smart X 火山引擎:以混沌工程打造可持续演练

最近更新时间2023.11.14 11:13:30

首次发布时间2023.11.14 11:13:30

近年来,车企借助云、容器化、微服务等技术加速自身数字化变革,已经成为面向未来发展的主要趋势。但随着数字化程度不断深入,自有系统的稳定性、性能、瓶颈以及由故障所带来的各类影响,都让系统和业务的风险不断增加。

借助火山引擎基于混沌工程的解决方案,smart以真实环境进行实验测试,通过实验性的方法提前暴露系统风险,使开发团队识别改进系统漏洞、弱点,提高系统的可靠性和稳健性,也做到了未雨绸缪。

smart是一家全球领先的新奢纯电智能汽车品牌,自品牌诞生以来,smart始终肩负着“探索未来都市交通最佳解决方案”的愿景。如今,smart更融合新奢风尚与明日科技,与伙伴们携手共创更具想象、极富创新的未来。

混沌工程,以真实环境实验识别系统漏洞
作为汽车行业的优等生,smart一直以客户为核心,聚焦“智能”、“智慧”,通过数字化驱动业务。为了保障不断升级的业务有序开展,smart希望通过更加科学有效的软件测试方法,提前识别系统漏洞并加以改进,为生产环境构筑一条“护城河”。

混沌工程(Chaos Engineering)是一种基于实验的系统测试方法,强调在真实环境中进行实验,通过模拟环境中的故障和异常情况发现问题和漏洞,旨在提高分布式系统的可靠性和弹性。

火山引擎应用韧性增强服务(Application Resilience Enhancement Service,简称 ARES)是一款遵循混沌工程实验原理,并融合了火山引擎内部多年业务实践的产品,提供丰富的故障场景,可帮助客户:

  • 持续优化业务:能够使开发团队及时了解软件的功能、性能和用户体验等方面的问题和隐患,及时进行调整和优化;

  • 发掘系统脆弱点:验证降级/预案,并找到系统性能拐点,验证监控和梳理无效告警等;

  • 增加用户满意度:通过提前识别业务隐患和问题并及时改进,减少生产环境可能遇到的相关问题,从而提升用户满意度。


火山引擎应用韧性增强服务产品技术架构

渐进策略,从0-1打造可持续演练
火山引擎与smart深入分析研究了当前系统与生产环境,并制定了三个阶段的演练计划,不仅帮助smart提升分布式系统的容错性和可恢复性,也提升了smart团队的演练测试能力:

  • 第一阶段: 由火山引擎为主导,对基础设施进行了全面演练,帮助smart识别潜在问题和瓶颈,为优化和升级提供了思路,确保了基础设施的稳定性和性能;

  • 第二阶段: 火山引擎与smart的团队成员共同合作,梳理业务场景链路和演练用例,不仅确保链路的可靠性和性能,也提升了smart的演练娴熟度;

  • 第三阶段: 由smart团队独立完成业务场景的梳理和故障演练,进一步提高了团队的技术水平和业务流程,能够更加有效地应对未来可能出现的故障;

通过对火山引擎应用韧性增强服务的客制化、故障库的增强以及smart云的适配,按照三阶段的演练计划,smart在业务稳定性、可持续演练、用户满意度等方面的能力得到了明显提升。在业务稳定性上,通过核心业务场景下的底层基础设施、上层服务对应的监控告警、性能上的优化升级,让smart应对突发情况的业务韧性有了显著改善;在业务演练可持续上,通过三个阶段由浅入深地演练,smart团队达成了未来自主持续演练的目标;在用户满意度上,业务逐步趋于稳定,相信可以在业务高峰、突发情况下降低用户投诉。

End
携手火山引擎,smart从0-1地打造了可持续演练,为系统、业务稳定性提供了坚实的保障。未来双方将继续深化合作,助力smart深化智能科技领域的研发创新,探索未来都市交通最佳解决方案。