You need to enable JavaScript to run this app.
导航

EMR本地盘实例故障运维

最近更新时间2024.01.22 19:10:09

首次发布时间2024.01.22 19:10:09

1 操作场景

  • 收到DiskErrorDetected(硬盘异常)事件时,若您只希望对故障磁盘进行更换, 建议您授权火山引擎更换硬盘。

  • 处理前建议您在授权火山引擎更换硬盘前,先隔离故障盘,确保大数据应用不再读写故障盘,减少数据损失与任务失败。

2 注意事项

  • 仅支持EMR使用如下规格族的实例,使用本功能:
系统架构实例规格族

x86

大数据型:
大数据型d2
大数据存储型d1s
大数据型d2c
大数据型d2s

3 隔离坏盘

  1. 在EMR控制台 - 集群列表 - 节点管理 - 展开节点组,通过硬盘异常事件消息中的实例ID,定位故障节点。

  1. 点击故障节点的ID,进入ECS实例页面,按照登录实例登录挂载故障盘的ECS实例。

  2. 执行如下命令,查看故障本地盘挂载点。如下步骤以故障本地盘为"/dev/vda2"为例。

df -h
  1. 执行如下命令,查看故障本地盘文件系统与其UUID。
blkid /dev/vda2
  1. 执行如下命令,编辑/etc/fstab文件。

    • 编辑/etc/fstab文件。
    vim /etc/fstab
    
    • i键,在文件中目标本地盘后添加nofail参数。

    • 仅需加入nofail参数,无需调整其它内容。

    • fstab文件参数说明
    参数说明
    24fd1325-bbf3-4814-b7e9-041deba*****故障本地盘的UUID。
    /故障本地盘挂载点。
    ext4故障本地盘文件系统类型。
    nofail本地盘出现在文件系统中但实际缺失时,不会中断ECS实例的启动流程。
    • esc键,输入:wq保存修改并退出。
  2. 通过下列命令查看占用磁盘的进程列表,如下步骤以故障设备为"vda2"为例。

sudo fuser -mv vda2
  1. 登录在EMR控制台 -【服务管理】页面关闭进程列表中对应的服务。

  2. 执行如下命令,取消故障本地盘挂载。

unmount /dev/vda2
  1. 登录云服务器控制台

  2. 在左侧导航树,选择“运维与监控 > 事件监控”,进入事件监控页面。

  3. 在顶部导航栏选择业务所在地域与项目。在事件监控页面,可以通过时间段或事件ID、实例ID搜索目标事件。

  1. 单击目标事件“操作”列的“运维操作 > 隔离故障盘”按钮,授权火山引擎隔离故障盘。

    • 隔离过程可能会持续几分钟,如果长时间没有完成隔离,请尝试刷新页面。
  2. 隔离完成后,您可以用鼠标箭头指向“隔离故障盘”按钮。

    • 若展示已隔离状态,表面隔离成功。

    • 若展示错误反馈,表面隔离失败。

  3. 登录EMR控制台 -【服务管理】页面重启在之前步骤中关闭的服务。

4 提交换盘申请

  1. 登录云服务器控制台

  2. 在左侧导航树,选择“运维与监控 > 事件监控”,进入事件监控页面。

  3. 在顶部导航栏选择业务所在地域与项目。在事件监控页面,可以通过时间段或事件ID、实例ID搜索目标事件。

  1. 单击目标事件“操作”列的“运维操作”按钮,进入运维配置页面。

    • “运维方式”请选择“更换故障盘”。

    • 单击“授权运维”按钮,并单击确认弹窗中的“确定”按钮,授权火山引擎运维人员更换故障硬盘。

    授权后,将生成DiskError.ReplaceDisk(硬盘异常,更换硬盘)事件,提示您更换故障盘进度。

5 等待换盘施工

  1. 更换故障盘流程出现异常时,将向您发送DiskError.ReplaceDisk:Pending事件通知。收到通知后,您需要根据提示重启实例或提交工单解决异常问题。

    • 通过重启实例解决问题 如下图所示,请您根据指引,单击“重启实例”按钮,重启实例解决异常。

    • 通过工单解决问题 如下图所示,请根据指引,单击“提交工单”按钮,联系火山引擎运维人员协助您解决异常。

6 恢复磁盘

  1. 更换故障盘成功,将向您发送DiskError.ReplaceDisk:Succeeded事件通知。收到通知后,您需要登录实例挂载本地盘。

    说明

    1. 若更换故障盘后,实例未识别到本地盘,请提交工单获取技术支持。
    2. 推荐您使用设备名(如/dev/data1)而非UUID进行挂载。
    • 登录实例

    • 执行如下命令,查看未挂载的数据盘信息。

    lsblk -l
    
    • 执行如下命令,为待挂载的数据盘制作文件系统。
    mkfs -t <文件系统> <设备名>
    
    • 执行如下命令,挂载数据盘。
    mount <设备名> <挂载点>
    
    • 执行修改fstab文件命令
    sudo chmod 755 <挂载点>
    echo "<设备名> <挂载点> $fstype defaults,noatime,nofail 0 0" >> /etc/fstab
    
  2. 执行如下命令,确认数据盘是否挂载成功。

df -h
  1. 重启服务
    • 在EMR控制台 -【服务管理】中,重启所有服务。