You need to enable JavaScript to run this app.
导航

镜像加速服务监控

最近更新时间2023.12.14 15:02:39

首次发布时间2023.11.17 15:31:30

托管 Prometheus 控制台中预置了常见的 VKE 集群监控看板,本文为您介绍镜像加速监控看板信息。

vke-p2p-dashboard

vke-p2p-dashboard 为 P2P 镜像加速功能看板,展示了该功能的监控信息。包括:代理请求总次数、当前代理请求总次数、任务总个数、失败的任务总个数、分片的总个数等。

说明

P2P 镜像加速功能的详情,请参见 P2P 镜像加速方案

alt

P2P 镜像加速监控看板的指标清单如下表所示。

看板分类看板名称PromQL 语句
P2P 镜像加速监控代理请求总次数sum(dragonfly_dfdaemon_proxy_request_running_total{cluster="$clusterId"})by(instance)
代理通过 drgonfly 的请求次数dragonfly_dfdaemon_proxy_request_via_dragonfly_total{cluster="$clusterId"}
代理没有通过 dragonfly 的请求次数dragonfly_dfdaemon_proxy_request_not_via_dragonfly_total{cluster="$clusterId"}
当前代理请求总次数dragonfly_dfdaemon_proxy_request_running_total{cluster="$clusterId"}
所有代理请求的总字节数sum(dragonfly_dfdaemon_proxy_request_bytes_total{cluster="$clusterId"})by(instance)
任务的总个数sum(dragonfly_dfdaemon_peer_task_total{cluster="$clusterId"})by(instance)
失败任务的总个数sum(dragonfly_dfdaemon_peer_task_failed_total{cluster="$clusterId"})by(instance)
分片的总个数sum(dragonfly_dfdaemon_piece_task_total{cluster="$clusterId"})by(instance)
失败的分片总个数sum(dragonfly_dfdaemon_piece_task_failed_total{cluster="$clusterId"})by(instance)
文件类型任务总个数sum(dragonfly_dfdaemon_file_task_total{cluster="$clusterId"})by(instance)
流式类型任务总个数sum(dragonfly_dfdaemon_stream_task_total{cluster="$clusterId"})by(instance)
作为 Seed Peer 下载总次数sum(dragonfly_dfdaemon_seed_peer_download_total{cluster="$clusterId"})by(instance)
作为 Seed Peer 下载失败总次数sum(dragonfly_dfdaemon_seed_peer_download_failure_total{cluster="$clusterId"})by(instance)
预取任务总个数sum(dragonfly_dfdaemon_prefetch_task_total{cluster="$clusterId"})by(instance)
作为 Seed Peer 的并行下载个数sum(dragonfly_dfdaemon_seed_peer_concurrent_download_total{cluster="$clusterId"})by(instance)
命中缓存任务个数sum(dragonfly_dfdaemon_peer_task_cache_hit_total{cluster="$clusterId"})by(instance)

说明

如果您需要在托管 Prometheus 中的 Explore 功能或告警中心使用上述 PromQL 语句查看具体的指标或配置告警,请修改或删除语句中关于集群、节点、容器组的变量。例如:将 cluster=~"$Cluster"参数中的$Cluster变量修改为具体的集群 ID ,或直接删除该参数。

vke-nydus-dashboard

vke-nydus-dashboard 为镜像懒加载(Nydus)功能看板,展示了该功能的监控信息。包括:Nydus Daemon 数量、Nydus Daemon 内存用量等。

说明

镜像懒加载(Nydus)功能的详情,请参见 容器镜像懒加载方案

alt

镜像懒加载(Nydus)功能看板的指标清单如下表所示。

看板分类看板名称指标单位PromQL 语句
Nydus Daemon 监控Nydus Daemon 数量Countsum(nydusd_counts{node=~"$node"})by(version)
Nydus Daemon 内存用量MBtopk(10,sum(nydusd_rss_kilobytes{cluster="$clusterId",node=~"$node"})by (node))
Prepare 函数执行时间 P90mstopk(10,histogram_quantile(0.9,sum(rate(snapshotter_snapshot_operation_elapsed_milliseconds_bucket{cluster="$clusterId",node=~"$node",snapshot_operation="PREPARE"}[5m]))by (le,node)))
Cleanup 函数执行时间 P90mstopk(10,histogram_quantile(0.9,sum(rate(snapshotter_snapshot_operation_elapsed_milliseconds_bucket{cluster="$clusterId",node=~"$node",snapshot_operation="CLEANUP"}[5m]))by (le,node)))
Mount 函数执行时间 P90mstopk(10,histogram_quantile(0.9,sum(rate(snapshotter_snapshot_operation_elapsed_milliseconds_bucket{cluster="$clusterId",node=~"$node",snapshot_operation="MOUNTS"}[5m]))by (le,node)))
Remove 函数执行时间 P90mstopk(10,histogram_quantile(0.9,sum(rate(snapshotter_snapshot_operation_elapsed_milliseconds_bucket{cluster="$clusterId",node=~"$node",snapshot_operation="REMOVE"}[5m]))by (le,node)))
Nydus snapshotter 资源使用Nydus snapshotter CPU 使用率%topk(10,sum(snapshotter_cpu_usage_percentage{cluster="$clusterId",node=~"$node"})by (node))
Nydus snapshotter 内核态 CPU 时间mstopk(10,sum(snapshotter_cpu_system_time_seconds{cluster="$clusterId",node=~"$node"})by (node))
Nydus snapshotter 用户态 CPU 时间mstopk(10,sum(snapshotter_cpu_user_time_seconds{cluster="$clusterId",node=~"$node"})by (node))
Nydus snapshotter 内存用量MBtopk(10,sum(snapshotter_memory_usage_kilobytes{cluster="$clusterId",node=~"$node"})by (node))
Nydus snapshotter Cache 用量Btopk(10,sum(snapshotter_cache_usage_kilobytes{cluster="$clusterId",node=~"$node"})by (node))
Nydus 错误和事件Nydusd Read error 数量Counttopk(10,sum(nydusd_read_errors{cluster="$clusterId",node=~"$node"}) by(node))
Nydusd Died event 数量Counttopk(10,sum(nydusd_lifetime_event_counts{cluster="$clusterId",node=~"$node",nydusd_event="DIED"})by (node))
Nydus read 性能Nydus read P90 延迟mstopk(10,histogram_quantile(0.9,sum(rate(nydusd_read_latency_microseconds_bucket{cluster="$clusterId",node=~"$node"}[5m]))by(le,node)))
Nydus read 成功数量Counttopk(10,sum(nydusd_read_hits{cluster="$clusterId",node=~"$node"})by(node))
Nydus read 总 SizeBtopk(10, sum(nydusd_total_read_bytes{cluster="$clusterId", node=~"$node"})by (node))
Nydus read hang IO 数量Counttopk(10,sum(nydusd_hung_io_counts{cluster="$clusterId",node=~"$node"})by (node))

说明

如果您需要在托管 Prometheus 中的 Explore 功能或告警中心使用上述 PromQL 语句查看具体的指标或配置告警,请修改或删除语句中关于集群、节点、容器组的变量。例如:将 cluster=~"$Cluster"参数中的$Cluster变量修改为具体的集群 ID ,或直接删除该参数。