You need to enable JavaScript to run this app.
导航
HDFS 监控指标
最近更新时间:2025.02.08 15:02:36首次发布时间:2023.01.16 19:40:29

本文为您介绍 HDFS 指标的详细信息。
HDFS指标包含以下部分:

概览

标题

监控指标名称

单位

进程信息

NameNode 节点总数

DataNode 节点总数

DataNode 存活节点数

DataNode 失活节点数

HDFS 下线且 Live 的节点数量

HDFS 下线且 Dead 的节点数量

DataNode Decommissioning 状态节点数

心跳延迟被标记为 stale 状态的 DataNode 数

Block 状态

HDFS 块总数

BLOCK 容量

HDFS 等待被备份的块数量

HDFS 小于规定副本数的块数量

HDFS 坏块数量

HDFS 安排要备份的块数量

HDFS 等待删除的块数

HDFS 超过副本数的块数

HDFS 丢块数量

HDFS 启动时被推迟处理的块数

存储状态

存储总容量

GB

DFS 存储使用量

GB

HDFS 剩余的空间大小

GB

非 DFS 存储使用量

GB

DFS 存储使用率

%

Datanode 存储使用率最小值

%

Datanode 存储使用率最大值

%

Datanode 存储使用量标准差

集群负载

HDFS 集群客户端连接数

HDFS 集群文件数

HDFS Snapshots

HDFS 坏盘总数

HDFS-NameNode

标题

监控指标名称

单位

数据流量

NameNode 接收数据速率

Bytes/s

NameNode 发送数据速率

Bytes/s

QPS

NameNode RPC 调用速率

次/s

请求处理延迟

RPC 平均延迟时间

ms

RPC 请求平均处理时间

ms

验证和授权

RPC 认证失败次数

RPC 认证成功次数

RPC 授权失败次数

RPC 授权成功次数

当前连接数

当前连接数量

RPC 队列长度

NameNode RPC 调用队列长度

LockQueueLength 等待文件锁的队列长度

JVM 堆内存情况

JVM 当前已经使用的 NonHeapMemory 的大小

MB

JVM 当前已经 Committed 的 NonHeapMemory 的大小

MB

JVM 当前已经使用的 HeapMemory 的大小

MB

JVM 当前已经 Committed 的 HeapMemory 的大小

MB

JVM 配置的 HeapMemory 的大小

MB

JVM 运行时可以使用的最大内存大小

MB

数据块汇报延迟

每秒处理 DataNode Blcok 平均延迟

JVM 线程数量

处于 NEW 状态的线程数量

处于 RUNNABLE 状态的线程数量

处于 BLOCKED 状态的线程数量

处于 WAITING 状态的线程数量

处于 TIMED WAITING 状态的线程数量

处于 Terminated 状态的线程数量

峰值线程数

线程数量

后台线程数量

JVM 日志数量

FATAL 级别日志数量

ERROR 级别日志数量

WARN 级别日志数量

INFO 级别日志数量

GC 次数

Young GC 次数

Full GC 次数

GC 时间

NameNode JVM 总 GC 时间统计

s

NameNode JVM FGC 时间统计

s

NameNode JVM YGC 时间统计

s

内存区域占比

Survivor 0 区内存使用占比

Survivor 1 区内存使用占比

Eden 区内存使用占比

Old 区内存使用占比

Metaspace 区内存使用占比

Compressed class space 区内存使用占比

Code Cache 区使用量

NameNode JVM 内存分区使用量

被标记为过期的存储的数量

所有过期 DataNode 的存储目总数

备 NN 上挂起的与 BLOCK 相关操作的消息数量

DATANODE 的请求被 QUEUE 在 standby namenode 中的个数

缺失块统计

缺失的数据块数量

缺失的数据库数量(rf = 1)

SNAPSHOT 操作

每秒执行 AllowSnapshot 操作的次数

每秒执行 DisallowSnapshot 操作的次数

每秒执行 CreateSnapshot 操作的次数

每秒执行 DeleteSnapshot 操作的次数

每秒执行 ListSnapshottableDir 操作次数

每秒执行 SnapshotDiffReportOps 的次数

每秒执行 RenameSnapshotOps 的次数

文件操作

每秒执行 CreateFile 操作的次数

每秒执行 GetListing 操作的次数

每秒执行 TotalFileOps 的次数

每秒执行 DeleteFile 操作的次数

每秒执行 FileInfo 操作的次数

每秒执行 GetAdditionalDatanode 操作的次数

每秒执行 CreateSymlink 操作的次数

每秒执行 GetLinkTarget 操作的次数

每秒执行 FilesInGetListing 操作的次数

文件统计

文件和文件夹被删除或重命名的数量

文件和文件夹创建数量

Appended 文件数量

事务操作

每秒处理 Journal transaction 操作的次数

每秒批量处理 Journal transaction 操作的次数

处理 Journal Transaction 操作的平均延迟

ms

自上次检查点以来的总事务数

镜像操作

每秒执行 GetEditNumOps 的次数

每秒执行 GetImageNumOps 的次数

每秒执行 PutImageNumOps 的次数

读取 Edit 文件操作平均延迟

ms

读取镜像文件平均延迟

ms

写入镜像文件平均延迟

ms

SYNC 操作

每秒处理 Journal syncs 操作的次数

处理 Journal syncs 操作的平均延迟

ms

数据块操作

每秒处理 BlockReceivedAndDeletedOps 操作的次数

HDFS Block Ops 处于 Queued 状态的个数

每秒处理 DataNode Block 上报操作的次数

Cache 汇报

每秒处理 CacheReport 操作的次数

缓存上报动作平均延迟

ms

启动时间

进程启动时间

ms

Checkpoint

上次 Checkpoint 以来的时间

time

RPC 平均时间(1)

Complete 请求平均延迟时间

ms

Create 请求平均延迟时间

ms

Rename 请求平均延迟时间

ms

AddBlock 请求平均延迟时间

ms

GetListing 请求平均延迟时间

ms

GetFileInfo 请求平均延迟时间

ms

SendHeartbeat 请求平均延迟时间

ms

RPC 平均时间(2)

RegisterDatanode 请求平均延迟时间

ms

BlockReport 请求平均延迟时间

ms

Delete 请求平均延迟时间

ms

RenewLease 请求平均延迟时间

ms

BlockReceivedAndDeleted 请求平均延迟时间

ms

Fsync 请求平均延迟时间

ms

VersionRequest 请求平均延迟时间

ms

RPC 平均时间(3)

ListEncryptionZones 请求平均延迟时间

ms

SetPermission 请求平均延迟时间

ms

SetTimes 请求平均延迟时间

ms

SetSafeMode 请求平均延迟时间

ms

Mkdirs 请求平均延迟时间

ms

GetServerDefaults 请求平均延迟时间

ms

GetBlockLocations 请求平均延迟时间

ms

安全模式

NameNode 进程是否不处于安全模式
1 表示不处于安全模式,0 表示处于安全模式中。

HDFS-DataNode

纬度

监控指标名称

单位

XCEIVER 数量

DataNode XCEIVER 数量

数据读写速率

DataNode 本地写入速率

Bytes/s

DataNode 本地读取速率

Bytes/s

DataNode 远端写入速率

Bytes/s

DataNode 远端读取速率

Bytes/s

客户端连接数

远程客户端写操作 QPS

次/s

本地客户端写操作 OPS

次/s

远程客户端读操作 QPS

次/s

本地客户端读操作 QPS

次/s

数据块操作与校验

BLOCK 校验失败数量

从 DataNode 读取 Block OPS

次/s

向 DataNode 写入 Block OPS

次/s

DataNode 进行 Checksum 操作的 OPS

次/s

复制 Block 操作的 OPS

次/s

Replace Block 操作的 OPS

次/s

BLOCK 汇报动作的 OPS

次/s

BLOCK 增量汇报的 OPS

次/s

缓存汇报的 OPS

次/s

每秒处理 ACK ROUND TRIP 次数

次/s

故障与错误

磁盘故障次数

网络错误次数

心跳

心跳接口平均时间

ms

心跳接口 QPS

次/s

包传输

发送数据包平均时间

ns

数据块操作耗时

读取 Block 操作平均时间

ms

写 Blcok 操作平均时间

ms

块校验操作平均时间

ms

复制块操作平均时间

ms

Replace Block 操作平均时间

ms

块汇报平均时间

ms

增量块汇报平均时间

ms

缓存汇报平均时间

ms

处理 ACK ROUND TRIP 平均时间

ms

FSYNC 和 Flush操作

每秒处理 FSYNC 操作次数

次/s

每秒处理 Flush 操作次数

次/s

Flush 操作平均时间

ms

Fsync 操作平均时间

ms

RAMDISK 块处理与读写

写入内存的块的总数

写入内存但未成功的块总数(故障转移到磁盘)

应用程序在被保存到磁盘之前被删除的块的总数

内存中的块被读取的总次数

内存中被清除的块总数

内存中被清除的未读块总数

惰性写入器写入磁盘的总数

由惰性写入器写入磁盘的总字节数

Bytes

写入内存的总字节数

Bytes

JVM 内存情况

JVM 当前已经使用的 NonHeapMemory 的大小

MB

JVM 配置的 NonHeapCommittedM 的大小

MB

JVM 当前已经使用的 HeapMemory 的大小

MB

JVM HeapMemory 提交大小

MB

JVM 配置的 HeapMemory 的大小

MB

JVM 运行时可以使用的最大内存大小

MB

JVM 线程数量

处于 NEW 状态的线程数量

处于 RUNNABLE 状态的线程数量

处于 BLOCKED 状态的线程数量

处于 WAITING 状态的线程数量

处于 TIMED WAITING 状态的线程数量

处于 Terminated 状态的线程数量

峰值线程数量

后台线程数量

JVM 日志数量

Fatal 日志数量

Error 日志数量

Warn 日志数量

Info 日志数量

GC 次数

Young GC 次数

Full GC 次数

GC 时间

Full GC 耗时

s

GC 总耗时

s

Young GC 耗时

s

内存区域占比

Survivor 区内存使用占比

%

Eden 区内存使用占比

%

Old 区内存使用占比

%

Metaspace 区内存使用占比

%

Compressed class space 区内存使用占比

%

RPC

RPC 调用速率

次/s

RPC 处于 Queued 状态平均时长

RPC 处理平均时长

RPC 处理队列长度

数据流量

接收数据速率

Bytes/s

发送数据速率

Bytes/s

验证和授权

RPC 验证失败次数

RPC 验证成功次数

RPC 授权失败次数

RPC 授权成功次数

连接数

当前连接数

CPU

HDFS DataNode CPU 系统时间

ms

HDFS DataNode CPU 用户时间

ms

启动时间

进程启动时间

s