## 问题描述使用ECS云服务器过程中,误将关键文件`/usr/lib64`更名,导致无法使用命令并且ECS实例系统也处于不可用的状态。由于命令不可用,因此也无法通过`mv`命令重新更名文件。## 问题分析`/usr/lib64`文件是Linux系统中存放系统命令的文件目录,将该文件目录更名后,将会导致出现命令不可用并且系统故障的情况。因此,当发生这种情况时,我们无法通过命令`mv`去重命名被修改的`/usr/lib64`文件名。具体修复方法可以参考以下方法...
运营一个典型的大模型服务一般也都需要数千台多 GPU 服务器。伴随越来越多企业入局,整个行业的算力产业转型升级也将加剧,一些算力隐患也正在逐渐浮出水面。相较于传统 CPU 硬件,GPU 的一个缺陷是 **故障率较高... 如异常已排除,则让节点重新变为可调度;对于多次重启仍无法恢复的节点,将自动触发火山引擎运维系统的告警,并由火山引擎的运维团队进行物理服务器的替换和下线维修相应的故障场景和自愈操作如下表所示:![pic...
要数千台多 GPU 服务器。伴随越来越多企业入局,整个行业的算力产业转型升级也将加剧,一些算力隐患也正在逐渐浮出水面。相较于传统 CPU 硬件,GPU 的一个缺陷是**故障率较高**,这一点在大规模应用场景下尤为... 如异常已排除,则让节点重新变为可调度;对于多次重启仍无法恢复的节点,将自动触发火山引擎运维系统的告警,并由火山引擎的运维团队进行物理服务器的替换和下线维修相应的故障场景和自愈操作如下表所示:![...
负载均衡(CloudLoadBalancer,简称CLB)是一种将访问流量按策略分发到多台后端服务器的服务,还能够根据后端服务器的健康状态进行流量转发,消除单点故障,从而提高系统的整体可用性。![picture.image](https://p6-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/69e189d588014e009341c02ff6424b2f~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1716135696&x-signature=F2QTj7bDeOpSlTumGhrfJT2jWDQ%3D)
安装监控插件失败问题描述若实例所在私有网络的DNS服务器地址非平台提供的默认地址,则无法成功安装监控插件,失败回显如下: Could not resolve host: tos-s3-cn-beijing.ivolces.com; Unknown error解决方法请登录实... 请按照下表排查。 告警通知方式 检查方法 邮件 检查垃圾邮箱。 短信 检查短信是否被拦截。例如,是否被手机识别为骚扰短信。 电话 检查电话是否被拦截。例如,是否被手机识别为骚扰电话。 告警回调 飞书:op...
公有云海量的物理服务器中,会概率性出现亚健康状态(底层检测到有硬件故障,但是还未宕机),此时还不影响云服务器实例运行。但是如果不及时处理故障隐患,可能会使故障升级,影响实例可用性。 针对底层硬件亚健康状态,系统会产生“系统维护”事件通知用户。用户感知到故障隐患后,授权火山引擎进行运维操作,并根据自身业务情况,选择一个合适的操作时间段(可选范围为事件产生后的0~72小时,每个时间段12小时)。 在用户选择的时间段,系统自...
本文介绍如何通过控制台及火山引擎提供的OpenAPI,查询与响应InfrastructureUpgrade.Redeploy(基础设施升级,实例重新部署)事件,快速排除故障、确保云产品稳定运行。 操作场景随着业务发展和云服务器宿主机(物理机)的健康状态变化,火山引擎将对部分老旧、性能不佳的基础设施进行升级和改造。此种情况下,火山引擎将生成InfrastructureUpgrade.Redeploy(基础设施升级,实例重新部署)事件并通知您。收到通知后,您需要选择运维时间窗口,...
通过VNC远程登录某台云服务器实例,支持多用户同时登录吗? 通过ECS Terminal远程登录某台云服务器实例,支持多用户同时登录吗? 无法通过SSH远程登录Linux实例的排查方法 远程连接Windows云服务器报错 忘记了实例的密... 云服务器需绑定弹性公网IP。 5 检查网络是否正常 尝试使用其他网络环境中的本地主机连接云服务器,或更换其他热点访问测试,判断是否是由于本地网络故障导致无法连接。排除本地网络故障后再进行后续的排查。 如果是...
ECS实例所在物理服务器宕机时,默认行为是将实例重新部署到其他服务器上,并生成“系统故障,导致实例重新部署”事件用户。但是部分用户的应用已经提供了节点切换等灾备机制。物理服务器发生宕机时,如果再强制将ECS实例在其他服务器上拉起,会破坏原有的选举机制,导致多个主节点的“脑裂”现象。 为了避免这种现象,用户对应用层有灾备机制的实例,设置默认响应方式为“禁止疏散实例”。物理服务器发生宕机后,实例不做疏散,完全依赖应用...
如何判断和处理硬件相关故障?GPU实例相比普通云服务器实例,增加了较多的外设,包括GPU、RDMA网络直通网卡、本地盘等。因此,除普通云服务器可能发生的常见问题外,还有如GPU、直通网卡以及PCIe链路上发生的亚健康或故障。针对GPU实例的常见故障和处理建议具体如图1所示。 图1 常见故障及处理建议 图2 故障处理流程GPU亚健康或故障处理流程如图2所示,以下重点介绍亚健康现象的处理流程。 除亚健康外的其它故障现象,您可以通过工单系统...
从2023年5月开始,对系统事件体验进行了如下改进: “系统故障,导致实例重启”类事件可以设置是否重启 ECS直通型实例所在物理服务器宕机时,默认行为是将实例随宿主机重启,并生成“系统故障,导致实例重启”事件通知用户。但是部分用户的应用已经提供了节点切换等灾备机制。物理服务器发生宕机时,如果再重启ECS实例,会破坏原有的选举机制,导致多个主节点的“脑裂”现象。为了避免这种现象,用户对应用层有灾备机制的实例,设置默认响应...
负载均衡是一种将访问流量按策略分发给多台后端服务器的服务,可以扩展系统对外服务能力,消除单点故障,从而提高系统的整体可用性。 后端服务器组是接收并处理请求的实例组,CLB实例会根据监听器的配置将客户端请求分发到后端服务器上,CLB实例内的后端服务器组内支持添加云服务器实例或云服务器实例上的网卡。 此次发布后,当用户手动删除云服务器实例或实例上的辅助网卡后,将不再需要于负载均衡产品控制台内或调用OpenAPI将对应后端...
本文介绍了云服务器ECS的OpenAPI变更信息。 说明 更多历史变更信息,请查看历史变更记录。 table th:nth-of-type(1) { width: 20%;}table th:nth-of-type(2) { width: 20%;}table th:nth-of-type(3) { wi... SystemFailure.Redeploy:Inquiring表示系统故障,导致实例重新部署:待响应 ModifySubscriptionEventTypes 变更请求参数: Types.N参数新增枚举值:InstanceOOM:Succeeded表示实例内存OOM。 SystemFailure.Redeplo...