You need to enable JavaScript to run this app.
导航

故障处理

最近更新时间2024.04.12 15:14:45

首次发布时间2023.12.01 14:57:46

安装监控插件失败

问题描述
若实例所在私有网络的DNS服务器地址非平台提供的默认地址,则无法成功安装监控插件,失败回显如下:

Could not resolve host: tos-s3-cn-beijing.ivolces.com; Unknown error

解决方法
请登录实例内部,执行cat /etc/resolv.conf命令查看DNS服务器地址。

  • 若为默认DNS服务器地址,回显如下。
    图片
  • 若非默认DNS,请修改私有网络DNS,然后重新安装监控插件。详情请参见自定义私网DNS

云服务器内网流量增高

问题描述
云产品监控页面选择云产品云服务器,单击实例名称,在基础监控/操作系统监控页面,看到云服务器的内网流入流出速率和接收发送包速率增高。
问题分析

  • 当其他ECS向某个ECS拷贝数据时,会导致当前ECS内网流量增高。
  • 如果非数据拷贝,则可能是ECS中毒,对外大量发包导致内网流量增高。

解决方法

  • ECS部署在Linux上
    1. 执行命令yum install nethogs,下载安装NetHogs。
    2. 执行命令nethogs eth0,查看占用内网带宽的进程。
      图片
  • ECS部署在Windows上
    1. 登录ECS实例,在ECS的任务栏上,单击鼠标右键,选择任务管理器
    2. 任务管理器进程页签,查看占用内网带宽的进程。

无法收到告警邮件

  1. 确认所选联系人的联系方式有效。
  2. 如果仍无法收到通知,请检查发送告警通知的邮箱是否加入白名单。
    火山引擎会使用monitor@monitor.volces.com邮箱为您发送告警邮件,请确认已将该邮箱加入联系人邮箱的白名单等策略,避免无法接收告警邮件或邮件默认进入垃圾箱。

告警无法触发

告警无法触发是指告警指标达到了告警阈值、满足连续告警约束、且满足多指标条件,但是规则状态未变为告警中,也未产生告警历史。

  1. 确认告警没有触发。
    检查告警历史中是否有相关告警历史。
    • 如果有,说明告警已经触发。
    • 如果没有,说明告警未触发。
  2. 确认是否满足告警条件。
    在告警策略中查看对应资源、对应指标的监控看板,检查是否满足告警阈值和连续告警约束。
    • 告警阈值:触发条件中,指标值超过告警阈值。
    • 连续告警约束:触发条件中,指标值超过告警阈值持续N个周期。
      图片
    • 多指标条件:告警规则中配置了多指标,全部或者任意一个指标满足条件就触发告警,取决于用户的配置。
      图片

    注意

    • 三个条件同时满足才会触发告警,所以需要确认三个条件均满足。
    • 对于有多个节点的监控对象,请确保选中告警的节点。
  3. 如果确认告警没有触发,且符合告警规则,但仍然无法触发告警。请在控制台发起工单,在工单里提供告警策略截图、监控看板截图、告警策略ID。

告警已触发,却没有收到消息或者回调

  1. 告警历史页面,单击详情。
    图片

  2. 概览页面,查看告警通知的记录。
    图片

    • 如果发送失败,可以查看相应的详细信息。

    • 如果发送成功,但是仍然没有收到消息或者回调。请按照下表排查。

      告警通知方式

      检查方法

      邮件

      检查垃圾邮箱。

      短信

      检查短信是否被拦截。例如,是否被手机识别为骚扰短信。

      电话

      检查电话是否被拦截。例如,是否被手机识别为骚扰电话。

      告警回调

      • 飞书:open.feishu.cn,云监控会根据域名前缀识别飞书的消息,需检查回调地址url是否正确,并检查机器人是否设置关键字过滤。
      • 钉钉:oapi.dingtalk.com,云监控会根据域名前缀识别钉钉的消息,需检查回调地址url是否正确,并检查机器人是否设置关键字过滤。
      • 企业微信:qyapi.weixin.qq.com,云监控会根据域名前缀识别企业微信的消息,需检查回调地址url是否正确,并检查机器人是否设置关键字过滤。
      • 其他webhook:检查回调地址url是否正确。
  3. 全部确认无误,仍然无法定位问题,请在云监控控制台上发起工单。
    图片
    为了快速定位您的问题,请您在工单中提供以下信息:

    • 告警触发成功的截图
    • 告警发送成功或失败的截图
    • 接收终端拦截情况

收到告警消息但是检查相关资源正常

收到告警消息应检查相关指标是否符合告警规则,与资源是否正常没有直接关系。
排查方向:

  • 检查配置的告警指标是否合理
  • 检查设置的告警阈值是否合理

无法收到告警恢复通知

确认已开启告警规则中的告警恢复通知。

无法收到事件告警消息

如果配置了事件规则,但是没有收到消息,请按照以下步骤进行排查:

  1. 查看事件列表,确认有事件规则中对应的事件。
    例如,在事件规则中事件名称为实例主备切换(故障切换),检查云产品事件中是否有相关事件。
    • 没有对应事件,则不会有事件告警。
    • 有对应事件,请继续执行以下步骤。
  2. 检查通知地址是否正确。
  3. 如果确认事件规则和通知地址正确后,仍无法收到消息,请在控制台发起工单,在工单里提供事件规则ID。