可用性优先策略是多云CDN保障业务高可用的核心功能,通过主动监测和智能调度,确保在单个云服务商 CDN 服务不可用时,能够自动将流量切换至其他可用云服务商,从而最大程度地减少对终端用户体验的影响。本文介绍如何通过多云CDN控制台配置可用性优先策略。
背景信息
多云CDN利用 HTTP/HTTPS 拨测技术监测云服务商 CDN 服务(也包括 DCDN 等其他支持的产品)的可用性,可在发现异常时触发告警,并能够自动调整流量分配比例,从而实现容灾。当云服务商故障恢复时,告警将会解除,流量分配比例恢复为静态策略中的配置。
说明
多云CDN一般在告警条件满足后的 2~3 分钟进行告警通知和流量自动切换。解除告警时同样有约 2~3 分钟的延迟。
容灾层级
系统支持区域容灾和全局容灾两个层级。
- 区域容灾:针对云服务商在单个区域的可用性进行监控,以及在区域维度进行流量切换。
说明
区域特指中国内地“省份+运营商”、海外“国家或地区”。
- 全局容灾:针对云服务商在所有区域的整体可用性进行监控,以及在全局维度进行流量切换。
策略优先级
可用性优先策略的优先级在所有调度策略中是最高的。如果您启用了可用性优先的调度策略,那么当该策略生效时,其他类型的调度策略是不生效的。更多信息,请参见流量调度策略。
计费说明
创建可用性优先策略的过程中,您会创建一个拨测任务。拨测任务运行期间,系统会持续发送拨测请求;只有当任务关闭时,拨测请求才会停止发送。
在多云CDN中,拨测请求是一种计费资源。多云CDN订阅套餐默认包含拨测请求数配额。如果实际产生的拨测请求数超出套餐配额,将会产生后付费。更多信息,请参见套餐外用量计费。
前提条件
您已经创建了流量调度实例,并且该流量调度实例处于处于 已启用 状态。相关操作,请参见创建流量调度实例。
操作步骤
- 登录多云CDN控制台。
- 在左侧导航栏,单击 多云调度。
- 在 多云调度 标签页找到您的域名,单击 操作 列的 管理策略。
- 在 调度策略 标签页,单击 可用性优先策略 卡片。
- 在 可用性优先策略 配置区域,单击 创建策略。
- 在 创建可用性优先策略 面板,根据配置说明完成配置向导。
创建可用性优先策略后,您可以在 告警通知 页面,查询相关的告警记录和处置过程。更多信息,请参见查看告警通知。
配置说明
可用性优先策略配置向导包含以下三个任务:
1. 拨测配置
配置项 | 说明 |
|---|
拨测方式 | 选择一种拨测方式。可选项: - 固定频率拨测:按固定的时间间隔进行拨测。
- 动态频率拨测:根据前一次拨测结果(成功或失败)应用不同时间间隔进行拨测,在保障检查效果的前提下节省拨测开销。
说明 动态频率模式仅适用于 高级版 和 旗舰版 套餐。若您的套餐版本不满足要求,请先升级套餐。
|
拨测文件URL | 填写拨测的目标 URL。仅支持 HTTP/HTTPS 拨测。目标 URL 必须以http://或https://开头。 - 拨测会产生边缘流量,建议您提供一个小文件 URL。
- 为了保证拨测结果准确,请确保所提供的 URL 长期可访问。
您填写 URL 后,多云CDN会立即检测该 URL 是否可用。如果在输入框下出现以下提示,说明该 URL 不可访问:“资源监测失败,状态码404”。这种情况下,请重新提供可访问的 URL。 |
Range开关 | 您填写 测试文件URL,并且多云CDN检测该 URL 可用后,界面上将会显示 测试文件大小 和 Range开关。
您可以开启 Range开关,使多云CDN的拨测请求头中携带 range 信息。携带 range 信息的拨测请求只向云服务商节点请求测试文件的前 0~19 字节分片,使拨测带来的使用量降低。 说明 如果您提供的测试文件大于 2KB,建议您开启 Range 开关。 
|
拨测区域 | 选择拨测点的所在地。可选项: - 中国内地:您可以从位于中国内地特定城市下的中国联通、中国移动、中国电信 IDC 机房选择拨测任务所使用的拨测点。
- 全球(不含中国内地):您可以从位于全球(不含中国内地)特定城市下的当地运营商 IDC 机房中选择拨测任务所使用的拨测点。
说明 - 该选项仅在流量调度实例的 调度范围 为 全球 或 全球(不含中国内地) 时支持选择。
- 选择该选项后,不支持启用 流量自动切换。
|
拨测云服务商 | 自动展示了拨测任务将会监测的云服务商。 - 此处展示的云服务商包含当前全部静态策略中所引用的云服务商。
- 云服务商不支持在此处修改。如果需要移除或增加云服务商,请修改对应的静态策略。更多信息,请参见配置静态策略。
|
拨测间隔 | 指定每隔多久发起一轮拨测请求。间隔越大,拨测产生的流量消费越小,但云服务商不可用故障被发现的延时会增加。建议您根据实际需要进行配置。 - 针对 固定频率拨测,拨测间隔 默认值为 1分钟。可选项:1分钟、2分钟、3分钟、5分钟、10分钟、30分钟、60分钟。
- 针对 动态频率拨测,拨测间隔 包括初始、动态两个值。初始时间间隔应大于动态时间间隔。
- 初始:默认应用此时间间隔。若上一次拨测结果正常则维持不变。默认值为 2分钟。
- 动态:在上一次拨测结果出现异常时应用此时间间隔,直到上一次拨测结果正常后再恢复使用初始值。默认值为 1分钟。
|
拨测请求成功的条件 | 设置判断拨测请求是否成功的条件。可选项:默认 或 自定义。 - 默认:多云CDN向一个服务节点发送一次拨测请求。如果返回的状态码在 200 至 399 范围内,则认为该拨测请求成功。否则,该请求失败。
- 自定义:您可以设置状态码的范围,作为判定拨测请求是否成功的条件。当您选择 自定义,需要设置具体条件。您可以设置最多 7 个条件,这些条件有以下类型:
- 区间:如果返回的状态码在指定的区间内,表示拨测请求成功。这种类型的条件最多可设置 5 个。
- 包含:如果返回的状态码属于特定值,则表示拨测请求成功。这种类型的条件最多只能设置一个。一个条件中最多可指定 10 个状态码。
- 不包含:如果返回的状态码不属于特定值,表示拨测请求成功。这种类型的条件最多只能设置一个。一个条件中最多可指定 10 个状态码。
如果您设置多个条件,则这些条件必须同时满足,才表示拨测请求成功。
|
拨测点 | 选择发起拨测请求的 IDC 机房。可选择的 IDC 为特定城市下的中国联通、中国移动、中国电信 IDC。
您可以直接选择所有 推荐节点,或者从 全部节点 下选择节点。如需从 全部节点 下选择节点,可参考以下说明: - 建议您选择与大多数真实用户的 IP 线路接近的 IDC。
示例:如果您的业务用户多数为上海联通用户,则建议您选择“上海 上海市 中国联通 IDC”。这样多云CDN将通过上海联通 IDC 向云服务商的节点发起拨测。 - 拨测点的默认样本数默认为 3 个,表示每次都从选择的拨测点发起 3 个拨测请求,得到 3 份结果样本。您可以针对每个选择的节点指定 样本配置,也可以 设置统一样本数。
- 建议您至少选择 2 个不同城市的 IDC,确保拨测结果可靠。
- 您选择的 IDC 数量越多,产生的拨测请求越多。多云CDN订阅套餐默认包含拨测请求数配额。超出配额的用量将产生后付费。更多信息,请参见快捷拨测请求计费。
|
2. 区域容灾
区域层级的云服务商可用性监测默认开启,同时您可以选择是否启用流量自动切换、修改区域可用性告警的触发和解除条件、设置告警通知方式。
配置项 | 说明 |
|---|
区域流量自动切换 | 若开启该功能,则当云服务商触发区域可用性告警时,系统在该区域自动将流量切换到其他可用的云服务商,直到区域可用性告警解除。 说明 只有当 拨测区域 为 中国内地 时,允许开启流量自动切换。 |
区域不可用的条件 | 设置一个比例。
当“拨测成功的样本数/区域内拨测样本总数”低于预设比例时,则判定云服务商在该区域不可用。
默认值:50%。 |
触发区域告警的条件 | 设置一个次数,假设为 N。
当云服务商在一个区域下连续 N 次被判定为不可用时,则该云服务商将触发区域可用性告警。如果您开启了 区域流量自动切换,则系统在告警的同时执行容灾切换。
N 的取值范围:2~10。默认值:5。 |
解除区域告警的条件 | 设定一个时间段。
告警触发后,如果在该时间段内云服务商始终可用,则在该时间段结束时解除告警。如果您开启了 区域流量自动切换,则系统在解除告警的同时执行容灾回退。
该参数的取值范围与 拨测间隔 有关(对于 动态频率拨测,对应于 初始 值)。默认值:拨测间隔*5。取值范围:拨测间隔*2 ~ 拨测间隔*15。假设您设置的拨测频率是 1 分钟,则该参数默认值是 5 分钟,取值范围是 2~15 分钟。 |
通知对象 | 选择通知接收方的类型。在触发和解除可用性告警时,系统向您指定的通知接收方发送通知。可选项: - 联系组:表示通过联系人组接收通知。
- 通知机器人:表示通过群聊机器人接收通知。
至少勾选一项。 |
联系组 | 选择一个或多个联系人组作为通知接收方,然后选择一个或多个通知渠道。 - 如果没有可用的联系人组,您必须先在 运维监控 页面的 通知管理 标签页创建联系人组。具体操作,请参见创建联系人组。
- 通知渠道支持以下选项:邮件、短信、电话。
说明 短信 和 电话 通知功能目前处于免费试用阶段,有以下限制: - 单个电话号码每天最多收到 10 次电话通知。超过该数量后,告警将不再通过电话形式发送到对应电话号码。
- 免费试用阶段结束后,短信和电话通知将按通知次数开始收费。
|
通知机器人 | 选择一个或多个群聊机器人(支持飞书机器人、钉钉机器人、企业微信机器人、WPS协作机器人)作为通知接收方。
如果没有可用的群聊机器人,您必须先在 运维监控 模块的 通知管理 标签页创建 webhook。具体操作,请参见创建 webhook。 说明 多云CDN向单个钉钉、企业微信、WPS协作机器人发送通知的频率不超过 20 次/分钟。 |
3. 全局容灾
全局层级的云服务商可用性监测默认关闭。您可以选择手动开启该功能,并修改相关配置。
说明
为确保结果可靠,只有当拨测点对应的区域数量不少于 20 个时,才允许开启全局可用性监测。
配置项 | 说明 |
|---|
全局流量自动切换 | 若开启该功能,则当云服务商触发全局不可用告警时,系统停止向该云服务商分配流量,直到全局不可用告警解除。 说明 只有当 拨测区域 为 中国内地 时,允许开启流量自动切换。 |
全局不可用的条件 | 设置一个比例。
当“可用区域数/指定的拨测区域总数”低于预设比例时,则判定云服务商全局不可用。
默认值:50%。 |
触发全局告警的条件 | 设置一个次数,假设为 N。
当云服务商连续 N 次被判定为全局不可用时,则触发针对该云服务商的全局可用性告警。如果您开启了 全局流量自动切换,则系统在告警的同时执行容灾切换。
N 的取值范围:2~10。默认值:5。 |
解除全局告警的条件 | 设定一个时间段。
告警触发后,如果在该时间段内云服务商100%可用,则在该时间段结束时解除告警。如果您开启了 全局流量自动切换,则系统在解除告警的同时执行容灾回退。
该参数的取值范围与 拨测间隔 有关(对于 动态频率拨测,对应于 初始 值)。默认值:拨测间隔*5。取值范围:拨测间隔*2 ~ 拨测间隔*15。假设您设置的拨测频率是 1 分钟,则该参数默认值是 5 分钟,取值范围是 2~15 分钟。 |
常见问题
发生可用性告警时,流量如何自动切换?
如果某个云服务商触发了可用性告警,多云CDN可以自动将原计划分配给该云服务商的流量份额分配给其他云服务商。流量自动切换的规则如下:根据静态策略中定义的流量分配比例,在其他云服务商间重新分配流量。
示例:
假设在某个区域下有 3 个云服务商 A、B、C,它们的流量分配比例分别为:20%、30%、50%。
如果云服务商 C 在该区域下触发可用性告警,则系统将 C 的份额按原始的流量分配比例重新分配给 A 和 B。流量自动切换后,A、B、C 的流量分配比例分别为:40%、60%、0%。