You need to enable JavaScript to run this app.
导航

基础监控

最近更新时间2023.01.16 14:50:24

首次发布时间2021.12.08 10:38:15

基础监控是平台最基本的监控功能,包括对于主机、容器、进程的CPU、磁盘、IO、iNode、内存、GPU等相关指标的监控。

前提条件

  • 非容器环境:需要主机上接入Agent
  • k8s:需要通过DeamonSet接入Agent
  • 其他容器环境:需要在主机上接入Agent

主机监控

主机列表


主机列表展示接入监控的主机列表及其运行状态、CPU使用率、IO、负载信息。
所有指标均支持排序,支持选择时间范围、根据主机名过滤数据和根据标签筛选数据,可根据业务需求快速选择主机。

主机详情


单击主机名展示该主机各指标的趋势图,包括CPU、负载、内存等指标。
主机监控指标说明如下表所示:

指标名指标说明单位
cpu idle比例host.cpu.idl_ratio主机CPU空闲比例,处于idle(非iowait)下的CPU占比。比例计算方式为idle时间/总CPU时间。%
cpu总使用比例host.cpu.total_used_ratio主机CPU总使用比例,为用户使用比例与系统使用比例之和。%
cpu user比例host.cpu.user_ratio主机CPU用户使用比例,用户空间消耗的CPU时间占比。%
cpu system比例host.cpu.system_ratio主机CPU系统使用比例,内核空间消耗的CPU时间占比。%
cpu iowait比例host.cpu.iowait_ratio主机CPU iowait比例,处于idle(iowait)下的CPU时间占比。%
cpu stolen比例host.cpu.stolen_ratio主机CPU steal比例。仅与虚拟化环境相关,由于虚拟机管理程序从该VM“偷走”了CPU,导致该CPU对当前虚拟机不可用的时间占比。如果特定虚拟机上的"Steal Time"很高,则表明该虚拟机在过载或者负荷较大的物理主机上运行。%
cpu guest比例host.cpu.guest_ratio主机CPU guest比例。表示运行虚拟机的CPU时间占比。%
cpu nice比例host.cpu.nice_ratio主机CPU nice比例。表示nice为正值(低优先级)的用户态进程CPU使用占比。%
内存可用host.memory.available主机内存可用量。Byte
内存使用host.memory.used主机内存使用量。Byte
内存可用比例host.memory.available_ratio主机内存可用比例。计算方式为主机内存可用量/主机内存总量。%
内存使用比例host.memory.used_ratio主机内存使用比例。计算方式为主机内存使用量/主机内存总量。%
过去1分钟平均负载host.load.1m过去1分钟平均负载。过去1分钟CPU正在执行及等待执行的平均进程数量。-
过去5分钟平均负载host.load.5m过去5分钟平均负载。过去5分钟CPU正在执行及等待执行的平均进程数量。-
过去15分钟平均负载host.load.15m过去15分钟平均负载。过去15分钟CPU正在执行及等待执行的平均进程数量。-
磁盘空间使用比例host.disk.bytes_used_ratio磁盘使用比例。计算方式为磁盘空间使用量/磁盘总量。%
磁盘空间可用比例host.disk.bytes_free_ratio磁盘可用比例。计算方式为主机空间可用量/磁盘总量。%
磁盘空间使用host.disk.bytes_used磁盘空间使用量。Byte
磁盘空间可用host.disk.bytes_free主机空间可用量。Byte
IO延迟host.disk.io.lantency读写磁盘平均延时。ms
读IO延迟host.disk.io.read_latency读磁盘平均延迟。ms
写IO延迟host.disk.io.write_latency写磁盘平均延迟。ms
读IOPShost.disk.io.read_qps读磁盘的每秒次数。/s
写IOPShost.disk.io.write_qps写磁盘的每秒次数。/s
磁盘合并读host.disk.io.read_merged_qps合并读磁盘的每秒次数。/s
磁盘合并写host.disk.io.write_merged_qps合并写磁盘的每秒次数。/s
读IO吞吐量host.disk.io.read_bytes_rate读磁盘的每秒byte数。Byte/s
写IO吞吐量host.disk.io.write_bytes_rate写磁盘的每秒byte数。Byte/s
磁盘挂载点空间使用比例host.disk_mount.bytes_used_ratio磁盘挂载点空间使用比例。%
磁盘挂载点空间可用比例host.disk_mount.bytes_free_ratio磁盘挂载点空间可用比例。%
磁盘挂载点空间使用host.disk_mount.bytes_used磁盘挂载点空间使用量。Byte
磁盘挂载点空间可用host.disk_mount.bytes_free磁盘挂载点空间可用量。Byte
磁盘挂载点INODE使用比例host.disk_mount.inode_used_ratio磁盘挂载点INODE使用比例。%
磁盘挂载点INODE可用比例host.disk_mount.inode_free_ratio磁盘挂载点INODE可用比例。%
磁盘挂载点INODE使用host.disk_mount.inode_used磁盘挂载点INODE使用量。-
磁盘挂载点INODE可用host.disk_mount.inode_free磁盘挂载点INODE可用量。-
网卡接收字节数host.network.bytes_recv网卡接收字节数。Byte
网卡发送字节数host.network.bytes_sent网卡发送字节数。Byte
网卡接收数据包host.network.packets_recv网卡接收数据包数。p/s
网卡发送数据包host.network.packets_sent网卡发送数据包数。p/s
GPU显存空闲host.nvidia.memory_freeGPU显存空闲量。Byte
GPU显存使用host.nvidia.memory_usedGPU显存使用量。Byte
GPU总显存host.nvidia.memory_totalGPU总显存量。Byte
GPU显存占用率host.nvidia.memory_used_ratioGPU显存占用率。计算方式为GPU显存使用量/GPU总显存量。%
GPU使用率host.nvidia.gpu_utilizationGPU使用率。%
GPU显存使用率host.nvidia.mem_copy_utilizationGPU显存被读写的时间占比。%
GPU温度host.nvidia.temperatureGPU温度。
GPU功率host.nvidia.powerGPU功率。mW

Docker监控

Docker趋势

Docker趋势展示接入监控的容器列表及其运行状态、宿主名称、镜像、CPU使用率、内存使用率、启动时间、创建时间等信息。
所有指标均支持排序,支持选择时间范围、根据主机名过滤数据、根据Docker搜索和根据标签筛选,可根据业务需求快速筛选容器。

Docker详情

单击容器名展示容器详情,包括CPU、内存使用趋势图等。
容器监控指标说明如下表所示:

指标名指标说明单位
cpu system比例docker.cpu.system_ratio容器内核空间的CPU利用率。%
cpu user比例docker.cpu.user_ratio容器用户空间的CPU利用率。%
cpu sharesdocker.cpu.shares_ratio容器的CPU份额。份额(share)控制容器中进程的CPU使用比例。%
cpu总使用比例docker.cpu.total_ratio容器的总CPU利用率。%
线程数量docker.cpu.thread_num容器线程数量。-
内存使用(RSS)docker.memory.rss容器内存使用量。Byte
内存使用(RSS)比例docker.memory.rss_ratio容器内存使用比例。计算方式为内存RSS/容器内存限额。%
读IOPSdocker.io.read_qps容器读磁盘每秒次数。/s
写IOPSdocker.io.write_qps容器写磁盘每秒次数。/s
读IO吞吐量docker.io.read_bytes_rate容器写磁盘每秒byte数。Byte/s
写IO吞吐量docker.io.write_bytes_rate容器读磁盘每秒byte数。Byte/s

进程监控

进程趋势

进程列表展示接入监控的进程列表及其启动用户、主机名称、CPU、内存使用率、创建时间、结束时间等信息。
所有指标均支持排序,支持时间范围选择、主机名过滤、进程搜索和标签筛选,可根据业务需求快速筛选进程。

进程详情

单击进程名展示进程详情,包括进程指标、Runtime指标、RED指标以及日志。进程指标中展示了CPU、内存使用趋势图等信息。
进程监控指标说明如下表所示:

指标名指标说明单位
cpu核心总数process.cpu.cpu_limit进程能使用的cpu核数限额。-
cpu总使用比例(相对单核)process.cpu.total_ratio进程CPU利用率. 例如占用2个核心时CPU利用率为200%。%
cpu system比例(相对单核)process.cpu.system_ratio内核空间的CPU利用率。%
cpu user比例(相对单核)process.cpu.user_ratio用户空间的CPU利用率。%
cpu总使用核数process.cpu.total_usedCPU使用核数。例如占用2个核心时使用核数为2。-
cpu system使用核数process.cpu.system_used内核空间的CPU使用核数。-
cpu user使用核数process.cpu.user_used用户空间的CPU使用核数。-
线程数量process.cpu.thread_num进程的操作系统线程数量。-
内存总量process.memory.limit进程能使用的CPU限额。Byte
内存使用(RSS)process.memory.rss内存使用量。Byte
内存使用(RSS)比例process.memory.rss_ratio内存使用比例。计算方式为内存RSS/内存限额。%
虚拟内存(Virtual Memory Size)process.memory.vms虚拟内存大小。Byte
读IOPSprocess.io.read_qps进程读磁盘的每秒次数。/s
写IOPSprocess.io.write_qps进程写磁盘的每秒次数。/s
读IO吞吐量process.io.read_bytes_rate进程读磁盘的每秒byte数。Byte/s
写IO吞吐量process.io.write_bytes_rate进程写磁盘的每秒byte数。Byte/s
打开文件数process.open_fd_count进程打开的文件数量。-
自愿切换次数(voluntary_ctx_switches)process.voluntary_ctx_switches自愿的上下文切换次数。-
强制切换次数(involuntary_ctx_switches)process.involuntary_ctx_switches强制的上下文切换次数。-

进程监控JVM指标:

指标说明
jvm.clazz.loaded_class_countJVM当前加载类数量
jvm.clazz.total_unloaded_class_countJVM总计已卸载类数量
jvm.clazz.total_loaded_class_countJVM总计加载类数量
jvm.gc.gc_count_oldJVM GC次数-OldGen
jvm.gc.gc_time_oldJVM GC时间-OldGen
jvm.gc.gc_count_newJVM GC次数-NewGen
jvm.gc.gc_time_newJVM GC时间-NewGen
jvm.memory.init_heapJVM初始堆内存
jvm.memory.max_heapJVM最大堆内存
jvm.memory.used_heapJVM已使用堆内存
jvm.memory.committed_heapJVM已提交堆内存
jvm.memory.init_noheapJVM初始非堆内存
jvm.memory.max_noheapJVM最大非堆内存
jvm.memory.used_noheapJVM已使用非堆内存
jvm.memory.committed_noheapJVM已提交非堆内存
jvm.memory_pool.init_newgenJVM内存池-初始NewGen
jvm.memory_pool.max_newgenJVM内存池-最大NewGen
jvm.memory_pool.used_newgenJVM内存池-已使用NewGen
jvm.memory_pool.committed_newgenJVM内存池-已提交NewGen
jvm.memory_pool.init_oldgenJVM内存池-初始OldGen
jvm.memory_pool.max_oldgenJVM内存池-最大OldGen
jvm.memory_pool.used_oldgenJVM内存池-已使用OldGen
jvm.memory_pool.committed_oldgenJVM内存池-已提交OldGen
jvm.memory_pool.init_code_cacheJVM内存池-初始CodeCache
jvm.memory_pool.max_code_cacheJVM内存池-最大CodeCache
jvm.memory_pool.used_code_cacheJVM内存池-已使用CodeCache
jvm.memory_pool.committed_code_cacheJVM内存池-已提交CodeCache
jvm.memory_pool.init_survivorJVM内存池-初始Survivor
jvm.memory_pool.max_survivorJVM内存池-最大Survivor
jvm.memory_pool.used_survivorJVM内存池-已使用Survivor
jvm.memory_pool.committed_survivorJVM内存池-已提交Survivor
jvm.memory_pool.init_meta_spaceJVM内存池-初始MetaSpace
jvm.memory_pool.max_meta_spaceJVM内存池-最大MetaSpace
jvm.memory_pool.used_meta_spaceJVM内存池-已使用MetaSpace
jvm.memory_pool.committed_meta_spaceJVM内存池-已提交MetaSpace
jvm.memory_pool.init_perm_genJVM内存池-初始PermGen
jvm.memory_pool.max_perm_genJVM内存池-最大PermGen
jvm.memory_pool.used_perm_genJVM内存池-已使用PermGen
jvm.memory_pool.committed_perm_genJVM内存池-已提交PermGen
jvm.thread.live_countJVM存活线程数
jvm.thread.daemon_countJVM守护线程数
jvm.thread.peak_countJVM峰值线程数
jvm.thread.runnable_state_thread_countJVM可运行线程数
jvm.thread.blocked_state_thread_countJVM阻塞线程数
jvm.thread.waiting_state_thread_countJVM等待线程数
jvm.thread.timed_waiting_state_thread_countJVM定时等待线程数