You need to enable JavaScript to run this app.
导航

HDFS 监控指标

最近更新时间2023.08.03 18:50:29

首次发布时间2023.01.16 19:40:29

本文为您介绍HDFS指标的详细信息。
HDFS指标包含以下部分:

概览

标题监控指标名称单位

进程信息

NameNode 节点总数

DataNode 节点总数
DataNode 存活节点数
DataNode 失活节点数
HDFS 下线且 Live 的节点数量
HDFS 下线且 Dead 的节点数量
DataNode Decommissioning 状态节点数
心跳延迟被标记为 stale 状态的 DataNode 数

Block 状态

HDFS块总数

BLOCK 容量
HDFS 等待被备份的块数量
HDFS 小于规定副本数的块数量
HDFS 坏块数量
HDFS 安排要备份的块数量
HDFS 等待删除的块数
HDFS 超过副本数的块数
HDFS 丢块数量
HDFS 启动时被推迟处理的块数
存储状态存储总容量GB
DFS 存储使用量GB
HDFS 剩余的空间大小GB
非 DFS 存储使用量GB
DFS 存储使用率%
Datanode 存储使用率最小值%
Datanode 存储使用率最大值%
Datanode 存储使用量标准差
集群负载HDFS 集群客户端连接数
HDFS 集群文件数
HDFS Snapshots
HDFS 坏盘总数

HDFS-NameNode

标题监控指标名称单位
数据流量NameNode 接收数据速率Bytes/s
NameNode 发送数据速率Bytes/s
QPSNameNode RPC 调用速率次/s
请求处理延迟RPC 平均延迟时间ms
RPC 请求平均处理时间ms
验证和授权RPC 认证失败次数
RPC 认证成功次数
RPC 授权失败次数
RPC 授权成功次数
当前连接数当前连接数量
RPC 队列长度NameNode RPC 调用队列长度
LockQueueLength 等待文件锁的队列长度
JVM堆内存情况JVM 当前已经使用的 NonHeapMemory 的大小MB
JVM 当前已经 Committed 的 NonHeapMemory 的大小MB
JVM 当前已经使用的 HeapMemory 的大小MB
JVM 当前已经 Committed 的 HeapMemory 的大小MB
JVM 配置的 HeapMemory 的大小MB
JVM 运行时可以使用的最大内存大小MB
数据块汇报延迟每秒处理 DataNode Blcok 平均延迟
JVM 线程数量处于 NEW 状态的线程数量
处于 RUNNABLE 状态的线程数量
处于 BLOCKED 状态的线程数量
处于 WAITING 状态的线程数量
处于 TIMED WAITING 状态的线程数量
处于 Terminated 状态的线程数量
峰值线程数
线程数量
后台线程数量
JVM 日志数量FATAL 级别日志数量
ERROR 级别日志数量
WARN 级别日志数量
INFO 级别日志数量
GC 次数Young GC 次数
Full GC 次数
GC 时间NameNode JVM 总GC时间统计s
NameNode JVM FGC时间统计s
NameNode JVM YGC时间统计s
内存区域占比Survivor 0区内存使用占比
Survivor 1区内存使用占比
Eden 区内存使用占比
Old 区内存使用占比
Metaspace 区内存使用占比
Compressed class space 区内存使用占比
Code Cache区使用量
NameNode JVM 内存分区使用量
被标记为过期的存储的数量所有过期 DataNode 的存储目总数
备 NN 上挂起的与 BLOCK 相关操作的消息数量DATANODE 的请求被 QUEUE 在 standby namenode 中的个数
缺失块统计缺失的数据块数量
缺失的数据库数量(rf = 1)
SNAPSHOT 操作每秒执行 AllowSnapshot 操作的次数
每秒执行 DisallowSnapshot 操作的次数
每秒执行 CreateSnapshot 操作的次数
每秒执行 DeleteSnapshot 操作的次数
每秒执行 ListSnapshottableDir 操作次数
每秒执行 SnapshotDiffReportOps 的次数
每秒执行 RenameSnapshotOps 的次数
文件操作每秒执行 CreateFile 操作的次数
每秒执行 GetListing 操作的次数
每秒执行 TotalFileOps 的次数
每秒执行 DeleteFile 操作的次数
每秒执行 FileInfo 操作的次数
每秒执行 GetAdditionalDatanode 操作的次数
每秒执行 CreateSymlink 操作的次数
每秒执行 GetLinkTarget 操作的次数
每秒执行 FilesInGetListing 操作的次数
文件统计文件和文件夹被删除或重命名的数量
文件和文件夹创建数量
Appended 文件数量

事务操作

每秒处理 Journal transaction 操作的次数

每秒批量处理 Journal transaction 操作的次数

处理 Journal Transaction 操作的平均延迟

ms

自上次检查点以来的总事务数

镜像操作每秒执行 GetEditNumOps 的次数
每秒执行 GetImageNumOps 的次数
每秒执行 PutImageNumOps 的次数
读取 Edit 文件操作平均延迟ms
读取镜像文件平均延迟ms
写入镜像文件平均延迟ms
SYNC 操作每秒处理 Journal syncs 操作的次数
处理 Journal syncs 操作的平均延迟ms

数据块操作

每秒处理 BlockReceivedAndDeletedOps 操作的次数

HDFS Block Ops 处于 Queued 状态的个数

每秒处理 DataNode Block 上报操作的次数

Cache汇报

每秒处理 CacheReport 操作的次数

缓存上报动作平均延迟

ms

启动时间进程启动时间ms
Checkpoint上次 Checkpoint 以来的时间time
RPC 平均时间(1)Complete 请求平均延迟时间ms
Create 请求平均延迟时间ms
Rename 请求平均延迟时间ms
AddBlock 请求平均延迟时间ms
GetListing 请求平均延迟时间ms
GetFileInfo 请求平均延迟时间ms
SendHeartbeat 请求平均延迟时间ms
RPC 平均时间(2)RegisterDatanode 请求平均延迟时间ms
BlockReport 请求平均延迟时间ms
Delete 请求平均延迟时间ms
RenewLease 请求平均延迟时间ms
BlockReceivedAndDeleted 请求平均延迟时间ms
Fsync 请求平均延迟时间ms
VersionRequest 请求平均延迟时间ms
RPC 平均时间(3)ListEncryptionZones 请求平均延迟时间ms
SetPermission 请求平均延迟时间ms
SetTimes 请求平均延迟时间ms
SetSafeMode 请求平均延迟时间ms
Mkdirs 请求平均延迟时间ms
GetServerDefaults 请求平均延迟时间ms

GetBlockLocations 请求平均延迟时间

ms

安全模式

NameNode 进程是否不处于安全模式
1表示不处于安全模式,0表示处于安全模式中。

HDFS-DataNode

纬度监控指标名称单位
XCEIVER 数量DataNode XCEIVER 数量
数据读写速率DataNode 本地写入速率Bytes/s
DataNode 本地读取速率Bytes/s
DataNode 远端写入速率Bytes/s
DataNode 远端读取速率Bytes/s
客户端连接数远程客户端写操作 QPS次/s
本地客户端写操作 OPS次/s
远程客户端读操作 QPS次/s
本地客户端读操作 QPS次/s
数据块操作与校验BLOCK 校验失败数量

从 DataNode 读取 Block OPS

次/s

向 DataNode 写入 Block OPS

次/s

DataNode 进行 Checksum 操作的 OPS次/s
复制 Block 操作的 OPS次/s
Replace Block 操作的 OPS次/s
BLOCK 汇报动作的 OPS次/s
BLOCK 增量汇报的 OPS次/s
缓存汇报的 OPS次/s
每秒处理 ACK ROUND TRIP 次数次/s
故障与错误磁盘故障次数
网络错误次数
心跳心跳接口平均时间ms
心跳接口 QPS次/s
包传输发送数据包平均时间ns
数据块操作耗时读取 Block 操作平均时间ms
写 Blcok 操作平均时间ms
块校验操作平均时间ms
复制块操作平均时间ms
Replace Block 操作平均时间ms
块汇报平均时间ms
增量块汇报平均时间ms
缓存汇报平均时间ms
处理 ACK ROUND TRIP 平均时间ms

FSYNC 和 Flush操作

每秒处理 FSYNC 操作次数

次/s

每秒处理 Flush 操作次数次/s
Flush 操作平均时间ms
Fsync 操作平均时间ms
RAMDISK 块处理与读写写入内存的块的总数
写入内存但未成功的块总数(故障转移到磁盘)
应用程序在被保存到磁盘之前被删除的块的总数
内存中的块被读取的总次数
内存中被清除的块总数
内存中被清除的未读块总数
惰性写入器写入磁盘的总数
由惰性写入器写入磁盘的总字节数Bytes
写入内存的总字节数Bytes
JVM 内存情况JVM 当前已经使用的 NonHeapMemory 的大小MB
JVM 配置的 NonHeapCommittedM 的大小MB
JVM 当前已经使用的 HeapMemory 的大小MB
JVM HeapMemory 提交大小MB
JVM 配置的 HeapMemory 的大小MB
JVM 运行时可以使用的最大内存大小MB
JVM 线程数量处于 NEW 状态的线程数量
处于 RUNNABLE 状态的线程数量
处于 BLOCKED 状态的线程数量
处于 WAITING 状态的线程数量
处于 TIMED WAITING 状态的线程数量
处于 Terminated 状态的线程数量
峰值线程数量
后台线程数量
JVM 日志数量Fatal 日志数量
Error 日志数量
Warn 日志数量
Info 日志数量
GC 次数Young GC 次数
Full GC 次数
GC 时间Full GC 耗时s
GC 总耗时s
Young GC 耗时s

内存区域占比

Survivor 区内存使用占比

%

Eden 区内存使用占比%
Old 区内存使用占比%
Metaspace 区内存使用占比%
Compressed class space 区内存使用占比%
RPCRPC 调用速率次/s
RPC 处于 Queued 状态平均时长
RPC 处理平均时长
RPC 处理队列长度
数据流量接收数据速率Bytes/s
发送数据速率Bytes/s
验证和授权RPC 验证失败次数
RPC 验证成功次数
RPC 授权失败次数
RPC 授权成功次数
连接数当前连接数
CPUHDFS DataNode CPU系统时间ms
HDFS DataNode CPU用户时间ms
启动时间进程启动时间s