运营一个典型的大模型服务一般也都需要数千台多 GPU 服务器。伴随越来越多企业入局,整个行业的算力产业转型升级也将加剧,一些算力隐患也正在逐渐浮出水面。相较于传统 CPU 硬件,GPU 的一个缺陷是 **故障率较高... 硬件监控和性能加速等能力,针对异构计算场景推出的解决方案。它结合字节跳动内部大规模 AI 业务的云原生化应用实践,围绕 GPU 业务的特点,能够帮助用户实现底层复杂异构资源的统一接入和管理,包括 GPU、RDMA、高性能...
要数千台多 GPU 服务器。伴随越来越多企业入局,整个行业的算力产业转型升级也将加剧,一些算力隐患也正在逐渐浮出水面。相较于传统 CPU 硬件,GPU 的一个缺陷是**故障率较高**,这一点在大规模应用场景下尤为... **GPU 故障检测及自愈** **能力概述**火山引擎云原生 AI 套件是基于容器服务,集成资源管理、硬件监控和性能加速等能力,针对异构计算场景推出的解决方案。它结合字节跳动内部大...
GPU云服务器(GPUCloudComputing,GPU)是提供GPU算力的弹性计算服务,具有高效稳定的计算能力,适用于生成式AI、自动驾驶、图像处理、科学计算等多种应用场景。![picture.image](https://p6-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/3d0e4040a17b446d821de40d5b061cfd~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1714494053&x-signature=Yb%2F2NGnA7idVVs7FrWI3RPyGyfs%3D)
最近我们的软件在硬解播放4K分辨率高清视频时遇到了效率不够的问题,为了搞清楚原因,我们需要使用其他音视频软件做个比对测试,测试一下当前PC的CPU和GPU能力。我们选择了视频播放器软件PotPlayer,看看该播放器分别软... 硬解则是使用GPU进行硬件解码,其中硬件解码的效率要更高一些。软件终端如果需要将本端摄像头采集到的图像发送到服务端,则需要对摄像头采集机出来的图像进行编码,编码相对于解码,要消耗更多的CPU(软解使用CPU)或G...
托管 Prometheus 控制台中预置了常见的 VKE 集群监控看板,本文为您介绍集群 GPU 监控看板信息。 vke-pod-gpu-dashboardvke-pod-gpu-dashboard 为容器组 GPU 监控看板,展示了容器组的 GPU 监控信息,包括:GPU 使用率、GPU 显存使用率、GPU 显存用量等。 容器组 GPU 监控看板的指标清单如下表所示。 看板分类 看板名称 指标单位 PromQL 语句 容器组 GPU 监控 GPU 使用率 % DCGM_FI_DEV_GPU_UTIL{cluster="$clusterId",namespace="$...
本文主要描述 VCI 支持的 GPU 监控指标以及指标获取方法。 指标说明VCI GPU 监控使用的 GPU Exporter 兼容开源 DCGM Exporter 提供的监控指标。更多 DCGM Exporter 相关信息,请参见 DCGM 常见指标。 指标获取方式VCI 实例默认会通过 1025 端口对外暴露监控数据,通过如下命令可获取 VCI GPU 监控指标: bash curl http:// :1025/metrics其中变量 替换为实际的 VCI 实例 IP(Pod IP)。完整命令示例如下所示: bash curl http://10.16....
高性能计算GPU型实例监控新增RDMA相关指标,您可以直接通过云监控服务实时监控RDMA CNP、ECN和QP等相关指标数据,通过自定义指标阈值和告警通知,能够及时知晓高性能计算实例规格中RDMA网卡CNP、ECN和QP等指标超出阈值的情况,及时发现异常指标,确保业务的稳定运行。 可以参考以下内容配置高性能计算GPU型实例的监控告警能力: 高性能计算GPU实例监控指标 配置告警策略 应用场景业务使用高性能计算GPU型实例,希望实时监控RDMA网络情...
创建 高性能计算GPU型hpcpni2 实例后,您可在实例内部手动安装RDMA网络观测性增强插件,用于监控RDMA网络的健康状况。 操作场景使用公共镜像创建的未开启“RDMA网络观测性增强”的 高性能计算GPU型hpcpni2 实例。“RDMA网络观测性增强”相关信息请参见创建高性能计算GPU型实例。 使用自定义镜像创建的 高性能计算GPU型hpcpni2 实例。 安装RDMA网络增强登录云服务器控制台。 在左侧导航树中选择“实例与镜像 > 实例”。 在顶部导航...
在使用高性能计算GPU型实例进行多机训练时,用户希望能对RDMA性能进行实时监控,并根据相关指标判断网络状态。 本次高性能计算GPU型实例监控新增RDMA相关6个指标,您可以直接通过云监控服务实时监控RDMA网络接收/发送包数量、RDMA网络入/出方向暂停包数量和RDMA网络入/出方向流量暂停时间,如果发现业务运行速度变慢可参考此指标分析是否存在网络拥塞。 说明:此指标和模型算法、网络配置等多种因素有关,建议仅作为观测指标辅助业务分...
基础监控是平台最基本的监控功能,包括对于主机、容器、进程的CPU、磁盘、IO、iNode、内存、GPU等相关指标的监控。 前提条件非容器环境:需要主机上接入Agent k8s:需要通过DeamonSet接入Agent 其他容器环境:需要在主机上接入Agent 主机监控主机列表主机列表展示接入监控的主机列表及其运行状态、CPU使用率、IO、负载信息。所有指标均支持排序,支持选择时间范围、根据主机名过滤数据和根据标签筛选数据,可根据业务需求快速选择主机。...
包括GPU、RDMA网络直通网卡、本地盘等。因此,除普通云服务器可能发生的常见问题外,还有如GPU、直通网卡以及PCIe链路上发生的亚健康或故障。针对GPU实例的常见故障和处理建议具体如图1所示。 图1 常见故障及处理建议 图2 故障处理流程GPU亚健康或故障处理流程如图2所示,以下重点介绍亚健康现象的处理流程。 除亚健康外的其它故障现象,您可以通过工单系统直接发起故障单或等待系统自动监控到异常情况从而自动发起故障单进行处理。 ...
包括GPU、RDMA网络直通网卡、本地盘等。因此,除普通云服务器可能发生的常见问题外,还有如GPU、直通网卡以及PCIe链路上发生的亚健康或故障。针对GPU实例的常见故障和处理建议具体如图1所示。 图1 常见故障及处理建议 图2 故障处理流程GPU亚健康或故障处理流程如图2所示,以下重点介绍亚健康现象的处理流程。 除亚健康外的其它故障现象,您可以通过工单系统直接发起故障单或等待系统自动监控到异常情况从而自动发起故障单进行处理。 ...
您可以通过云服务器控制台或云监控控制台查看监控数据。 通过云服务器控制台获取云服务器在实例的详情页面,提供了单独的监控数据统计页面。在该页面,您可以查看30天内云服务器实例的CPU、内存、网络出入带宽、磁盘IO带宽、GPU卡、RDMA网络等监控数据。 登录云服务器控制台。 在实例列表页,单击需要查看监控数据的实例名称,进入该实例的详情页面。 单击“监控”页签,即可获取实例的监控数据。单击“基础监控/操作系统监控/GPU监控...