告别CDN单点故障：构建跨云CDN的容灾与调度体系--多云CDN-火山引擎

文档中心

多云CDN

最佳实践

告别CDN单点故障：构建跨云CDN的容灾与调度体系

本文将为您详细介绍如何运用火山引擎多云CDN的智能调度与容灾功能，以应对因单一云服务商CDN故障导致的业务中断或体验下降问题。通过本实践，您将掌握构建高可用跨云CDN架构的方法，从而有效规避单点故障，确保业务的连续性与稳定性。

场景痛点

在现代互联网业务中，内容分发网络（CDN）扮演着至关重要的角色，其稳定性直接关系到终端用户的访问体验。保障CDN服务的长期稳定运行，是技术团队需要持续深耕的核心课题。

然而，许多企业在CDN建设初期，往往会选择单一的云服务商。这种模式虽然部署简单，但也埋下了巨大的单点故障风险。一旦该服务商的核心CDN节点不可用（例如，因网络抖动、配置错误、发生欠费或遭受攻击而导致服务不可用），将直接对业务造成冲击，甚至可能导致业务全面中断，带来不可估量的损失。

对于业务而言，CDN故障的具体影响包括：

用户体验下降：网站加载缓慢、视频播放卡顿、应用无法正常使用，导致用户流失。
业务收入损失：电商网站无法完成交易，广告无法正常投放，直接影响企业收入。
品牌形象受损：服务不可用会严重影响用户对品牌的信任度。

因此，如何构建一个高可用的跨云CDN架构，有效应对单点故障，成为企业保障业务稳定性的关键。

解决方案

火山引擎多云CDN产品提供了智能调度与容灾能力，旨在帮助客户从容应对单一云服务商的CDN故障，保障业务的连续性和稳定性。

工作原理

多云CDN调度与容灾方案的核心在于，在传统的“用户 - CDN - 源站”访问链路中，引入了一个智能调度层。

alt

其工作原理如下：

基于DNS的智能调度
当用户发起访问请求时，多云CDN会根据预设的调度策略（例如，按地理位置、运营商、时间段等），将用户的请求按权重比例解析至不同云服务商的CNAME地址。
全方位的健康检查
多云CDN通过全球分布的拨测节点，对各云服务商的CDN节点进行持续的健康检查，确保用户请求被精准地分配到状态正常的CDN节点进行处理。
自动化的容灾切换与恢复
当健康检查发现监测某个云服务商的节点出现异常（例如，响应超时、异常状态码过多）时，可用性优先策略会立即触发。
- 多云CDN会自动将分配给故障云服务商的流量，平滑地切换到其他健康的云服务商。整个过程无需人工干预。待故障云服务商恢复服务后，系统会自动将流量切回，恢复原有的调度策略。
- 容灾切换在 区域+运营商 维度进行。
示例
假设静态策略为：
- 默认-中国内地：云服务商A 60%、云服务商B 40%、云服务商C 0%。
- 北京-移动：云服务商A 20%、云服务商B 20%、云服务商C 60%。
当系统判定云服务商B在北京-移动不可用时，北京-移动的流量分配规则将变为：云服务商A 25%、云服务商B 0%、云服务商C 75%；非北京-移动的流量分配规则不变。

更多技术细节，请参见文末的常见问题。

方案优势

提升业务稳定性：通过健康检查和故障自动切换，避免单一云服务商故障导致的全业务中断，最大程度保障业务的连续性。
优化终端用户体验：支持基于地理位置、运营商进行精细化流量调度。您可以根据业务需求，将指定区域或网络的用户流量引导至更具优势的云服务商，实现差异化服务，提升访问体验。
提升运维效率：将运维人员从重复的监控和手动操作中解放出来。面对CDN故障时，系统能够自动应对，无需人工干预，大大降低了运维的复杂度和响应时间，让运维团队可以更专注于核心业务的优化。

操作步骤

以下步骤将指导您如何配置多云CDN的容灾调度功能。

前提条件

已开通多云CDN产品。相关操作，请参见开通多云CDN。
已将业务域名配置在至少两个云服务商的加速产品中。关于支持的云服务商及产品，请参见使用限制。
已将您的第三方云服务商账号添加至多云CDN控制台，并已启用加速域名自动同步。更多信息，请参见添加云服务商账号。

步骤一：创建调度实例并配置静态策略

静态策略是流量调度的基础，它定义了在正常情况下，流量如何在不同的云服务商之间进行分配。

登录多云CDN控制台，进入 多云调度 页面，单击 创建调度。
为需要调度的域名创建实例，并配置默认静态策略。静态策略的核心是设置不同云服务商的 流量分配 比例。

alt

您可以根据业务需求，设置为主备模式（例如，云服务商A 100%，云服务商B 0%）或负载均衡模式（例如，云服务商A 60%，云服务商B 40%），并支持添加更精细化的策略，例如针对特定区域或运营商设置独立的流量分配规则。

示例：
您可以针对“上海”（区域）设置策略、针对“联通”（运营商）设置策略、针对“北京移动”（区域运营商）设置策略。

详细操作指引，请参见创建流量调度实例、配置静态策略。

步骤二：创建可用性优先策略

可用性优先策略是实现自动容灾的核心。它通过健康检查来判断云服务商的可用性，并在发现故障时自动切换流量。

在已创建的调度实例中，进入 调度策略 标签页，单击 可用性优先策略。
创建策略时，勾选 流量自动切换，并配置告警、容灾、拨测方式、判定条件等参数。
说明
流量自动切换 是实现自动容灾的关键，请务必开启。

alt

详细操作指引，请参见配置可用性优先策略。

可用性优先策略关键配置

为了达到最佳的容灾效果，请重点关注以下配置项：

拨测类别
- 边缘拨测：仅监测用户到CDN边缘节点的链路是否通畅。适用于静态资源为主的业务，能快速发现CDN节点本身的问题。
- 全链路拨测：监测从用户到CDN边缘节点，再到源站的整条链路。适用于动静态内容或API服务，能发现包括源站问题在内的全链路故障。
拨测点
建议选择覆盖您主要用户所在地区和运营商的拨测节点。如果您的业务遍布全国，建议选择所有省份的节点。这样，无论是局部故障还是大范围故障，都能被及时发现。
动态频率
为节省拨测成本同时兼顾故障发现的及时性，可以开启动态频率。在正常情况下，拨测会以较低频率进行（例如，2分钟/次）。一旦发现失败，系统会自动加快拨测频率（例如，1分钟/次），从而更快地确认故障。
故障判断条件
您可以适当调低触发告警的“连续失败次数”或“CDN不可用判断阈值”。例如，将连续失败次数设置为3次（默认为5次），可以在更短的时间内触发告警与容灾切换，从而最大限度地减少故障对业务的影响。但请注意，过低的阈值可能会导致因网络波动而产生误判。

结果验证

配置完成后，您可以通过模拟故障来验证容灾切换的效果。

验证思路

设置主备CDN：在静态策略中，将CDN A设置为100%流量（主），CDN B设置为0%流量（备）。
模拟故障：手动在CDN A的控制台停用加速域名，模拟CDN A出现故障。
观察切换：通过dig和curl命令（或者拨测方式），持续观察业务域名的DNS解析变化和资源访问情况。
模拟恢复：在CDN A的控制台重新启用域名，模拟故障恢复。
观察恢复：继续观察DNS解析是否切回CDN A。

步骤概述

准备观察脚本。
在一台网络环境稳定的Linux或Mac设备上，使用以下脚本进行持续监控（请将脚本中的域名和URL替换为您的实际业务信息）：
```
#!/bin/bash
# test_mcdn.sh

while true; do
    dig example.com @180.184.1.1
    dig example.com
    date
    curl -sv --connect-timeout 3 http://example.com/static/1KB.txt -o /dev/null
    sleep 5
done 2>&1 | tee /tmp/test_mcdn.log
```
说明
- 脚本中180.184.1.1为PublicDNS地址，用来观察当前网络环境在PublicDNS的解析情况。
- 请选取小文件URL用于测试。
执行测试。
1. 运行上述脚本。正常情况下，dig命令会返回CDN A的CNAME，curl命令会成功下载资源。
2. 在CDN A云服务商的控制台停用您的加速域名。
3. 等待一段时间（取决于您在可用性优先策略中设置的告警触发条件），然后观察脚本的输出。您应该能看到dig的输出切换为CDN B的CNAME，并且curl命令持续成功。
4. 在CDN A云服务商的控制台重新启用域名。
5. 等待一段时间后，观察dig的输出是否恢复为CDN A的CNAME。

客户案例

以某多云CDN客户的App为例。在某次云服务商故障发生后，多云CDN的监控系统立即感知到其服务可用率出现断崖式下跌。通过遍布全球的拨测节点，多云CDN迅速定位到故障源于某云服务商CDN节点。

alt

在确认故障后，多云CDN的智能调度系统自动触发了容灾切换，将原本分配至该云服务商的流量实时切换到其他备用云服务商，整个过程用时不到10分钟且无需人工干预，有效保障了客户App的业务连续性。

常见问题

增加一层CNAME解析会使访问延迟增加多少？

在DNS解析链路中增加一层CNAME，确实会带来额外的DNS查询开销。但是，这种影响主要体现在“冷解析”的场景下，即Local DNS没有缓存解析结果时。在这种情况下，延迟大约会增加20%左右。对于“热解析”（即Local DNS有缓存），由于无需向上递归查询，增加的延迟几乎可以忽略不计。考虑到互联网上绝大部分DNS查询都是热解析，因此对最终用户的实际访问体验基本无影响。

容灾切换最快多久生效？

容灾切换的生效时间主要由三部分组成：故障发现时间、处理延迟和DNS TTL生效时间。

故障发现时间：取决于您在可用性优先策略中的配置。例如，拨测频率为1次/分钟，触发告警的连续失败次数为5次，则最快5分钟判定为故障。
处理延迟：多云CDN在处理故障和故障恢复时有 2 分钟左右的延迟。例如，在判定故障 2 分钟后进行告警通知和流量自动切换。
DNS TTL生效时间：多云CDN的CNAME TTL通常设置为1分钟。在常规的Web/App访问场景（非长连接）下，通常5分钟左右90%的用户流量会切换到健康的CDN上，15分钟左右近100%流量会完成切换。

不同类型的调度策略，优先级有什么区别？

可用性优先策略的优先级最高。
对于静态调度策略，根据策略范围的精细程度来确定其优先级。范围越精细，优先级越高。
例如，在以下静态策略中，优先级从高到低依次为：
“北京移动”策略 > “北京”策略 > “移动”策略 > “中国内地”策略。

更多信息，请参见调度策略概述。

容灾切换时，流量分配比例如何调整？

当某个云服务商的CNAME因可用性问题触发告警时，多云CDN会自动将该故障云服务商的流量份额，依据其他健康云服务商在静态策略中预设的流量比例，进行重新分配。

更多信息，请参见流量自动切换规则说明。

最近更新时间：2025.07.28 10:33:08

这个页面对您有帮助吗？

有用

无用