You need to enable JavaScript to run this app.
导航

使用HostDiagnose检测实例网络问题

最近更新时间2023.08.03 12:08:21

首次发布时间2023.07.19 10:20:20

关于HostDiagnose

HostDiagnose是火山引擎提供的,实例内网络问题定位工具。通过该工具,您可以判断主机内网络 (PCIe硬件、PCIe配置) 是否正常,网卡硬件是否正常、以及一些网络基础配置 (路由等) 是否正常。

操作场景

随着云服务器性能的增加,其内网络出现性能瓶颈的概率越来越高。本文介绍如何通过批量作业功能,在多台实例中使用HostDiagnose工具检测、定位实例内网络问题。

说明

若您仅需在一台实例中检测网络问题,可直接在目标实例中执行 wget -q -O iaas_assist_trigger.sh https://host-diagnose-cn-beijing.tos-cn-beijing.volces.com/iaas_assist_trigger.sh && bash iaas_assist_trigger.sh命令。

由于命令执行时间较长,请避免SSH连接自动断开。

  • 检测通过时,将回显成功信息在Terminal内。
  • 若检测到存在问题,您可以下载检测日志/tmp/{目标实例ID}.tar.gz,并联系客户经理。

注意事项

操作步骤

步骤一:获取命令内容

您可以根据本步骤,获取火山引擎提供的HostDiagnose命令内容。

  1. 登录高性能计算GPU型实例,操作详情可查看登录实例

  2. 执行如下命令,下载Shell命令内容。

    • 获取最新版本命令(推荐)

      wget https://host-diagnose-cn-beijing.tos-cn-beijing.volces.com/iaas_assist_trigger.sh
      
    • 获取指定版本命令

      wget https://host-diagnose-cn-beijing.tos-cn-beijing.volces.com/{version}/iaas_assist_trigger.sh
      
  3. 执行vi iaas_assist_trigger.sh 命令,查看并复制完整Shell命令信息。

步骤二:创建自定义命令

您可以通过本步骤,将“步骤一”获取的命令制作为批量作业自定义命令,即可批量在多台实例中执行HostDiagnose命令。

  1. 登录批量作业控制台

  2. 选择“自定义命令”页签,进入自定义命令列表页面。

  3. 单击“创建自定义命令”按钮,进入创建自定义命令页面。

  4. 下文仅列出适用于本场景的参数配置,更多参数配置可查看克隆到自定义命令

    • 使用最新版本命令

      参数说明
      命令类型选择Shell
      命令内容填入步骤一获取的最新版本命令内容。
      默认执行用户指定root用户执行。
      超时时间设置命令在每个实例上执行的超时时间为 1800 s,执行超时后,批量作业将判断该任务在对应实例上执行失败。
    • 使用指定版本命令

      参数说明
      命令类型选择Shell
      命令内容填入步骤一获取的最新版本命令内容。

      使用参数

      勾选“开启”选择框,开启自定义参数。
      说明:
      请联系客户经理获取version参数值,更多自定义参数使用详情可查看自定义参数说明

      默认执行用户指定root用户执行。
      超时时间设置命令在每个实例上执行的超时时间为 1800 s,执行超时后,批量作业将判断该任务在对应实例上执行失败。

步骤三:创建批量作业

您可以创建作业,在多台实例中执行“步骤二”创建的自定义命令。

  1. 登录批量作业控制台

  2. 选择“作业管理”页签,进入作业列表页面。

  3. 单击“创建作业”按钮,进入创建作业页面。

  4. 下文仅列出适用于本场景的参数配置,更多参数配置可查看创建作业

    参数说明
    命令类型指定本作业命令类型为 自定义命令
    命令选择“步骤二”中创建的自定义命令。
    参数仅使用指定版本的HostDiagnose命令需填写,请填写通过客户经理获取的版本号。

    执行对象

    选择需要执行命令的高性能计算GPU型实例。

    最多支持选择200个实例。

步骤四:查看作业执行结果

您可以在批量作业控制台查看作业执行结果,操作详情可查看查看作业执行结果。结果示例如下所示:

  • 检测通过
    作业执行成功,且命令回显如下所示,表示实例通过检测。

  • 未通过检测
    作业会显示执行失败或部分失败,错误的执行对象下且命令回显如下所示,表示检测到实例存在问题需要修复。

后续操作

作业执行完成后,您可以根据执行结果进行后续操作。

  • 若HostDiagnose检查通过,说明通过本工具未发现实例异常。如需继续定位问题,请联系客户经理。

  • 若HostDiagnose检查未通过,请根据错误对象回显内容,下载实例中生成的检测日志压缩包,并联系客户经理。

    日志压缩包在实例中的存放路径可在命令回显末尾获取,路径格式为:/tmp/{instance_id}.tar.gz,请下载该文件。