服务器故障排除

云服务器

云服务器提供稳定的弹性计算服务。通过实时增减计算资源，适应业务变动，降低维护成本

社区干货

修改/usr/lib64文件名称,导致命令无法使用并且无法正常登录到云服务器内

## 问题描述使用ECS云服务器过程中,误将关键文件`/usr/lib64`更名,导致无法使用命令并且ECS实例系统也处于不可用的状态。由于命令不可用,因此也无法通过`mv`命令重新更名文件。## 问题分析`/usr/lib64`文件是Linux系统中存放系统命令的文件目录,将该文件目录更名后,将会导致出现命令不可用并且系统故障的情况。因此,当发生这种情况时,我们无法通过命令`mv`去重命名被修改的`/usr/lib64`文件名。具体修复方法可以参考以下方法...

GPU 故障检测及自愈:大幅提升 AI 场景的硬件故障运维效率

运营一个典型的大模型服务一般也都需要数千台多 GPU 服务器。伴随越来越多企业入局,整个行业的算力产业转型升级也将加剧,一些算力隐患也正在逐渐浮出水面。相较于传统 CPU 硬件,GPU 的一个缺陷是 **故障率较高... 如异常已排除,则让节点重新变为可调度;对于多次重启仍无法恢复的节点,将自动触发火山引擎运维系统的告警,并由火山引擎的运维团队进行物理服务器的替换和下线维修相应的故障场景和自愈操作如下表所示:![pic...

GPU 故障检测及自愈:大幅提升 AI 场景的硬件故障运维效率

要数千台多 GPU 服务器。伴随越来越多企业入局,整个行业的算力产业转型升级也将加剧,一些算力隐患也正在逐渐浮出水面。相较于传统 CPU 硬件,GPU 的一个缺陷是**故障率较高**,这一点在大规模应用场景下尤为... 如异常已排除,则让节点重新变为可调度;对于多次重启仍无法恢复的节点,将自动触发火山引擎运维系统的告警,并由火山引擎的运维团队进行物理服务器的替换和下线维修相应的故障场景和自愈操作如下表所示:![...

【图说产品】初见负载均衡 - 云上流量的均衡分配之道

负载均衡(CloudLoadBalancer,简称CLB)是一种将访问流量按策略分发到多台后端服务器的服务,还能够根据后端服务器的健康状态进行流量转发,消除单点故障,从而提高系统的整体可用性。![picture.image](https://p6-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/69e189d588014e009341c02ff6424b2f~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1716135696&x-signature=F2QTj7bDeOpSlTumGhrfJT2jWDQ%3D)

特惠活动

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗，加速分发更实惠

￥2.00/年20.00/年

立即购买

2核4G共享型云服务器

Intel CPU 性能可靠，不限流量，学习测试、小型网站、小程序开发推荐，性价比首选

￥86.00/年1908.00/年

立即购买

服务器故障排除-优选内容

查询与响应“系统故障,导致实例重新部署”事件

本文介绍如何通过控制台,查询与响应SystemFailure.Redeploy(系统故障,导致实例重新部署)事件,快速排除故障、确保云产品稳定运行。操作场景当云服务器宿主机(物理机)出现故障导致宕机时,可能需要将实例重新部署至新的宿主机,恢复实例正常运行。火山引擎不仅会通过事件通知告知您,同时还为您提供了完善的自动化运维方式,协助您快速排除故障。场景一:保持实例停止状态本场景适用于触发事件时,您不期望实例重新部署至其他宿主机。 ...

新功能发布记录

使用服务器迁移中心功能。约束限制 6 迁移任务迁移前,SMC将自动为源服务器创建整机镜像与快照,备份数据。 服务器迁移任务 2024年03月序号功能功能描述阶段文档 1 体验优化提升“块复制”迁移方式稳定性,提升迁移速度。邀测 服务器迁移任务 2 创建迁移任务时,不允许选择迁移源操作系统不支持的规格实例作为目标实例。 服务器迁移任务 3 使用“文件复制”迁移数据出现异常时,可通过日志排查解决。故障处理 4 迁移任务服务...

查询与响应“系统维护,实例重新部署”事件

本文介绍如何通过控制台及火山引擎提供的OpenAPI,查询与响应SystemMaintenance.Redeploy(系统维护,实例重新部署)事件,快速排除故障、确保云产品稳定运行。操作场景当您购买的云服务器实例所在的宿主机(物理机)处于CPU过热、电源故障、风扇故障等亚健康状态,且该宿主机尚未宕机时,火山引擎将生成SystemMaintenance.Redeploy(系统维护,实例重新部署)事件并通知您。收到通知后,您需要选择运维时间窗口,并授权火山引擎运维人员将您的...

查询与响应“系统故障,导致实例重启”事件

本文介绍如何通过控制台与OpenAPI,查询与响应SystemFailure.Reboot(系统故障,导致实例重启)事件,快速排除故障、确保云产品稳定运行。说明仅本地SSD型、大数据型、高性能计算GPU型规格族的实例会触发本事件,详情可查看实例规格清单。操作场景当云服务器宿主机(物理机)出现故障导致宕机时,可能需要重启实例,尝试恢复实例正常运行。火山引擎不仅会通过事件通知告知您,同时还为您提供了完善的自动化运维方式,协助您快速排除故障。...

服务器故障排除-相关内容

故障处理

安装监控插件失败问题描述若实例所在私有网络的DNS服务器地址非平台提供的默认地址,则无法成功安装监控插件,失败回显如下: Could not resolve host: tos-s3-cn-beijing.ivolces.com; Unknown error解决方法请登录实... 请按照下表排查。告警通知方式检查方法邮件检查垃圾邮箱。短信检查短信是否被拦截。例如,是否被手机识别为骚扰短信。电话检查电话是否被拦截。例如,是否被手机识别为骚扰电话。告警回调飞书:op...

系统维护事件邀测发布

公有云海量的物理服务器中,会概率性出现亚健康状态(底层检测到有硬件故障,但是还未宕机),此时还不影响云服务器实例运行。但是如果不及时处理故障隐患,可能会使故障升级,影响实例可用性。针对底层硬件亚健康状态,系统会产生“系统维护”事件通知用户。用户感知到故障隐患后,授权火山引擎进行运维操作,并根据自身业务情况,选择一个合适的操作时间段(可选范围为事件产生后的0~72小时,每个时间段12小时)。在用户选择的时间段,系统自...

查询与响应“基础设施升级,实例重新部署”事件

本文介绍如何通过控制台及火山引擎提供的OpenAPI,查询与响应InfrastructureUpgrade.Redeploy(基础设施升级,实例重新部署)事件,快速排除故障、确保云产品稳定运行。操作场景随着业务发展和云服务器宿主机(物理机)的健康状态变化,火山引擎将对部分老旧、性能不佳的基础设施进行升级和改造。此种情况下,火山引擎将生成InfrastructureUpgrade.Redeploy(基础设施升级,实例重新部署)事件并通知您。收到通知后,您需要选择运维时间窗口,...

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗，加速分发更实惠

￥2.00/年20.00/年

立即购买

2核4G共享型云服务器

Intel CPU 性能可靠，不限流量，学习测试、小型网站、小程序开发推荐，性价比首选

￥86.00/年1908.00/年

立即购买

实例FAQ

通过VNC远程登录某台云服务器实例,支持多用户同时登录吗? 通过ECS Terminal远程登录某台云服务器实例,支持多用户同时登录吗? 无法通过SSH远程登录Linux实例的排查方法远程连接Windows云服务器报错忘记了实例的密... 云服务器需绑定弹性公网IP。 5 检查网络是否正常尝试使用其他网络环境中的本地主机连接云服务器,或更换其他热点访问测试,判断是否是由于本地网络故障导致无法连接。排除本地网络故障后再进行后续的排查。如果是...

用户可选“系统故障,导致实例重新部署”事件的默认响应方式

ECS实例所在物理服务器宕机时,默认行为是将实例重新部署到其他服务器上,并生成“系统故障,导致实例重新部署”事件用户。但是部分用户的应用已经提供了节点切换等灾备机制。物理服务器发生宕机时,如果再强制将ECS实例在其他服务器上拉起,会破坏原有的选举机制,导致多个主节点的“脑裂”现象。为了避免这种现象,用户对应用层有灾备机制的实例,设置默认响应方式为“禁止疏散实例”。物理服务器发生宕机后,实例不做疏散,完全依赖应用...

GPU实例硬件相关FAQ

如何判断和处理硬件相关故障?GPU实例相比普通云服务器实例,增加了较多的外设,包括GPU、RDMA网络直通网卡、本地盘等。因此,除普通云服务器可能发生的常见问题外,还有如GPU、直通网卡以及PCIe链路上发生的亚健康或故障。针对GPU实例的常见故障和处理建议具体如图1所示。图1 常见故障及处理建议图2 故障处理流程GPU亚健康或故障处理流程如图2所示,以下重点介绍亚健康现象的处理流程。除亚健康外的其它故障现象,您可以通过工单系统...

系统事件体验改进

从2023年5月开始,对系统事件体验进行了如下改进: “系统故障,导致实例重启”类事件可以设置是否重启 ECS直通型实例所在物理服务器宕机时,默认行为是将实例随宿主机重启,并生成“系统故障,导致实例重启”事件通知用户。但是部分用户的应用已经提供了节点切换等灾备机制。物理服务器发生宕机时,如果再重启ECS实例,会破坏原有的选举机制,导致多个主节点的“脑裂”现象。为了避免这种现象,用户对应用层有灾备机制的实例,设置默认响应...

云服务器实例或网卡被删除后,支持自动从负载均衡的后端服务器组中移出

负载均衡是一种将访问流量按策略分发给多台后端服务器的服务,可以扩展系统对外服务能力,消除单点故障,从而提高系统的整体可用性。后端服务器组是接收并处理请求的实例组,CLB实例会根据监听器的配置将客户端请求分发到后端服务器上,CLB实例内的后端服务器组内支持添加云服务器实例或云服务器实例上的网卡。此次发布后,当用户手动删除云服务器实例或实例上的辅助网卡后,将不再需要于负载均衡产品控制台内或调用OpenAPI将对应后端...

API发布历史

本文介绍了云服务器ECS的OpenAPI变更信息。说明更多历史变更信息,请查看历史变更记录。 table th:nth-of-type(1) { width: 20%;}table th:nth-of-type(2) { width: 20%;}table th:nth-of-type(3) { wi... SystemFailure.Redeploy:Inquiring表示系统故障,导致实例重新部署:待响应 ModifySubscriptionEventTypes 变更请求参数: Types.N参数新增枚举值:InstanceOOM:Succeeded表示实例内存OOM。 SystemFailure.Redeplo...

特惠活动

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗，加速分发更实惠

￥2.00/年20.00/年

立即购买

2核4G共享型云服务器

Intel CPU 性能可靠，不限流量，学习测试、小型网站、小程序开发推荐，性价比首选

￥86.00/年1908.00/年

立即购买

产品体验

体验中心

云服务器特惠

云服务器

云服务器ECS新人特惠

立即抢购

白皮书

数据智能知识图谱

火山引擎数智化平台基于字节跳动数据平台，历时9年，基于多元、丰富场景下的数智实战经验打造而成

立即获取

服务器故障排除

云服务器

社区干货

修改/usr/lib64文件名称,导致命令无法使用并且无法正常登录到云服务器内

GPU 故障检测及自愈:大幅提升 AI 场景的硬件故障运维效率

GPU 故障检测及自愈:大幅提升 AI 场景的硬件故障运维效率

【图说产品】初见负载均衡 - 云上流量的均衡分配之道

特惠活动

热门爆款云服务器

DCDN国内流量包100G

2核4G共享型云服务器

服务器故障排除-优选内容

服务器故障排除-相关内容

故障处理

系统维护事件邀测发布

查询与响应“基础设施升级,实例重新部署”事件

热门爆款云服务器

DCDN国内流量包100G

2核4G共享型云服务器

实例FAQ

用户可选“系统故障,导致实例重新部署”事件的默认响应方式

GPU实例硬件相关FAQ

系统事件体验改进

云服务器实例或网卡被删除后,支持自动从负载均衡的后端服务器组中移出

API发布历史

特惠活动

热门爆款云服务器

DCDN国内流量包100G

2核4G共享型云服务器

产品体验

体验中心

云服务器特惠

白皮书

相关主题

最新活动

爆款1核2G共享型服务器

火山引擎增长体验专区

数据智能VeDI

热门访问

一键开启云上增长新空间