You need to enable JavaScript to run this app.
导航
查看监控数据
最近更新时间:2024.07.17 11:22:50首次发布时间:2023.07.21 11:36:53

云搜索服务已接入云监控,您可以在云搜索服务控制台或云监控控制台直接查看各项监控指标,实时分析实例的运行状态,包括实例资源使用率、实例状态、节点状态等信息。

查看监控数据

  1. 登录云搜索服务控制台
  2. 在顶部导航栏,选择目标项目和地域。
  3. 实例列表 v2页面,单击目标实例名称。
  4. 在实例详情页面的左侧导航栏选择可观测 > 监控总览,然后单击运行状态页签。
  5. 查看实例资源使用率。
    您可以查看 CPU、JVM、存储的使用率。在资源统计区域,可以查看当前实例的主分片数、总分片数、索引数、文档数、索引存储量。
    图片
  6. 查看监控数据。
    您可以查看不同维度的监控数据,目前分为综合指标、业务指标、集群指标、资源指标、索引指标、分析节点指标和机器学习指标。

监控指标说明

综合指标

监控项名称

监控项 ID

单位

说明

实例健康状态

InstanceHealthState

实例的健康状态,有以下几种情况:

  • 0=Green,实例健康。
  • 1=Yellow,数据完整,冗余副本离线,存在单点故障风险。
  • 2=Red,主副本离线,数据缺失,读写局部失败。
  • 3=Lost

实例节点数

  • InstanceMasterOnlyNodeNumber
  • InstanceDataOnlyNodeNumber
  • InstanceWarmNodeNumber
  • InstanceColdNodeNumber
  • InstanceCoordinatorOnlyNodeNumber

Count

按用途(如数据节点、专用主节点、专用协调节点等)统计节点数量。
对应如下:

  • 实例专有主节点数
  • 实例数据节点数
  • 实例温数据节点数
  • 实例冷数据节点数
  • 实例协调节点数

实例角色数

  • InstanceMasterNodeNumber
  • InstanceDataNodeTotalNumber
  • InstanceCoordinatorNodeNumber
  • InstanceIngestNodeNumber

Count

按集群角色(如master、data、coordinator、ingest等)统计节点数量。
对应如下:

  • 实例 Master 角色节点数
  • 实例数据角色节点数
  • 实例协调角色节点数
  • 实例Ingest角色节点数

实例存储用量

InstanceStorageUsedBytes

Bytes(IEC)

实例的存储用量。

索引总数

TotallndexNumber

Count

实例的索引总数。

分片(Shard) 总数

TotalShardNumber

Count

分片总数。

文档总数

TotalDocumentNumber

Count

文档总数。

集群 CPU 平均使用率&最大使用率

  • MeanCpuUsage
  • MaxCpuUsage

%

实例的 CPU 平均使用率和最大使用率。

  • 实例每个时段 CPU 使用率平均值
  • 实例每个时段 CPU 使用率峰值

集群 JVM 平均使用率&最大使用率

  • AvgJvmUsage
  • MaxJvmUsage

%

实例的 JVM 平均使用率和最大使用率。

  • 实例每个时段 JVM 使用率平均值
  • 实例每个时段 JVM 使用率峰值

集群磁盘平均使用率&最大使用率

  • AvgDiskUsagePercent
  • MaxDiskUsagePercent

%

实例的磁盘平均使用率和最大使用率。

  • 实例每个时段磁盘使用率平均值
  • 实例每个时段磁盘使用率峰值

业务指标

监控项名称

监控项 ID

单位

说明

Query操作OPS

QueryOps

实例维度,每秒查询分片的操作数量。

Index操作OPS

IndexOps

每秒创建文档的操作数量。

Merge操作OPS

MergeOps

每秒合并小文件的操作数量。

节点Query操作OPS

NodeQueryOPS

节点维度,每秒查询分片的操作数量。

节点Index操作OPS

NodeIndexOPS

节点维度,每秒创建文档的操作数量。

节点Merge操作OPS

NodeMergeOPS

节点维度,每秒合并小文件的操作数量。

搜索延迟

SearchLatency

Second

一分钟内 Query 操作的平均延迟。

写入延迟

IndexLatency

Second

一分钟内 Index 操作的平均延迟。

搜索成功率

SearchSuccessRatio

%

搜索成功率。

写入成功率

BulkSuccessRatio

%

Bulk 成功率。

文档每秒删除及更新数

DeletedDocumentRate

每秒被删除的文档数量。

集群指标

监控项名称

监控项 ID

单位

说明

索引状态

  • GreenIndexNumber
  • YellowIndexNumber
  • RedIndexNumber

Count

不同状态的索引数。

  • Green 状态的索引数。Green 表示健康,主副都在线。
  • Yellow 状态的索引数。Yellow 表示数据完整,副分片离线,存在单点故障风险。
  • Red 状态的索引数。Red 表示主分片离线,数据缺失,读写局部失败

主分片数 & 副分片数

  • ActivePrimaryShardNumber
  • ReplicaShardNumber

Count

不同类型的分片数。

  • 主分片数
  • 副分片数

分片状态

  • ActiveShardNumber
  • UnsignedShardNumber
  • InitializingShardNumber
  • RelocatingShardNumber

Count

不同状态的分片数。

  • 活跃分片数量
  • 未分配分片数量
  • 初始化中分片数量
  • 搬迁中分片数量

Pending Tasks 数量

TotalPendingTasks

Count

总的待办任务数量。

fielddata内存用量

FielddataMemorySize

Bytes(IEC)

Fielddata 内存用量。

缓存命中率

CacheHitRatio

%

Cache 命中率。

节点活跃Search线程数

ThreadPoolActiveSearchThreads

Count

分节点活跃查询线程数。

节点队列中Search任务数

ThreadPoolSearchQueue

Count

分节点队列中查询任务数

节点已拒绝Search任务数

ThreadPoolSearchRejected

Count

分节点已拒绝查询任务数。

节点活跃Write线程数

ThreadPoolActiveWriteThreads

Count

分节点活跃写入线程数。

节点队列中Write任务数

ThreadPoolWriteQueue

Count

分节点队列中写入任务数。

节点已拒绝Write任务数

ThreadPoolWriteRejected

Count

分节点已拒绝写入任务数。

节点活跃Refresh线程数

ThreadPoolActiveRefreshThreads

Count

分节点活跃 Refresh 线程数。

节点队列中Refresh任务数

ThreadPoolRefreshQueue

Count

分节点队列中 Refresh 任务数。

节点已拒绝Refresh任务数

ThreadPoolRefreshRejected

Count

分节点已拒绝 Refresh 任务数。

节点活跃Flush线程数

ThreadPoolActiveFlushThreads

Count

分节点活跃 Flush 线程数。

节点队列中Flush任务数

ThreadPoolFlushQueue

Count

分节点队列中 Flush 任务数。

节点已拒绝Flush任务数

ThreadPoolFlushRejected

Count

分节点已拒绝 Flush 任务数。

节点活跃Generic线程数

ThreadPoolActiveGenericThreads

Count

分节点活跃 Generic 线程数。

节点队列中Generic任务数

ThreadPoolGenericQueue

Count

分节点队列中通用任务数。

节点已拒绝Generic任务数

ThreadPoolGenericRejected

Count

分节点已拒绝通用任务数。

节点活跃ForceMerge线程数

ThreadPoolActiveForceMergeThreads

Count

分节点活跃 ForceMerge 线程数。

节点队列中ForceMerge任务数

ThreadPoolForceMergeQueue

Count

分节点队列中 ForceMerge 任务数。

节点已拒绝ForceMerge任务数

ThreadPoolForceMergeRejected

Count

分节点已拒绝 ForceMerge 任务数。

资源指标

监控项名称

监控项 ID

单位

说明

节点CPU规格

NodeCpuQuota

Count

各节点 CPU 总核数。

节点内存规格

NodeMemoryQuota

GiB

各节点总内存。

节点磁盘规格

NodeDiSkQuota

GiB

各节点用户数据实际可用的磁盘总空间,略小于实例配额,差额被文件系统元数据占用。

节点CPU使用率

NodeCPUUsage

%

各节点 CPU 使用率。

节点内存使用率

ContainerMemoryRssRate

%

节点RSS内存(含 JVM)使用率。

节点磁盘使用率

DiskUsagePercent

%

各节点磁盘使用率。

JVM内存使用率

JvmUsage

%

各节点 JVM 内存使用率。

JVM年轻代GC次数

YoungGcCount

Count

JVM 年轻代垃圾回收数量。

JVM年轻代GC用时

YoungGcSeconds

ms

JVM 年轻代垃圾回收单周期内累计用时。

JVM老年代GC次数

OldGcCount

Count

JVM 老年代垃圾回收数量。

JVM老年代GC用时

OldGcSeconds

ms

JVM 老年代垃圾回收单周期内累计用时。

节点磁盘写IOPS

NodeWriteIOPS

Count/s

各节点磁盘每秒写 IO。

节点磁盘读IOPS

NodeDiskReadIOPS

Count/s

各节点磁盘每秒读 IO。

节点磁盘写带宽

FsIoTotalWriteBytes

Bytes/s

各节点磁盘写带宽。

点磁盘读带宽

FsIoTotalReadBytes

Bytes/s

各节点磁盘读带宽。

节点网络流入包

NodeTransportReceivedPackages

Count

各节点收到的网络包数量。

数据流入率

ReceivedDataRate

KiB/s

各节点接收数据的速度。

节点网络流出包

NodeTransportSentPackages

Count

各节点发送的网络包数量。

数据流出率

SentDataRate

KiB/s

各节点发送数据的速度。

节点HTTP连接数

NodeHttpConnections

Count

各节点 HTTP 连接数。

索引指标

ES 7.10.2 和 OpenSearch 2.9.0 版本实例支持查看索引维度的监控数据。
您可以在左侧勾选需要查看监控数据的多个索引,然后可以看到各个索引的曲线图。

监控项名称

监控项 ID

单位

说明

索引查询速率/QPS

IndexSearchRate

Count/s

各索引的查询速率。

索引查询时延 P99

IndexSearchLatencyP99

ms

各索引查询时延 P99。

索引查询成功率

IndexSearchSuccessRatio

%

各索引的 Bulk 成功率。

索引写入速率/QPS

IndexBulkRate

Count/s

各索引的写入速率。

索引写入时延 P99

IndexBulkLatencyP99

ms

各索引写入时延 P99。

索引写入成功率

IndexBulkSuccessRatio

%

各索引搜索成功率

索引文档数

IndexDocNumber

Count

各索引的文档数。

索引存储大小

IndexStoreSizeBytes

KiB

各索引持久化大小。

分析服务指标

资源指标

监控项名称

监控项 ID

单位

说明

运行节点数

  • analysis_node_alive_num
  • analysis_node_ds_alive_num
  • analysis_node_fe_alive_num
  • analysis_node_igs_alive_num

Count

按用途统计节点数量。

  • 分析服务 MS 节点运行数
  • 分析服务 DS 节点运行数
  • 分析服务 FE 节点运行数
  • 分析服务 IGS 节点运行数

CPU 规格

analysis_node_cpu_quota

Core

各类型节点的 CPU 规格。

CPU 使用率

analysis_node_cpu_usage_percent

%

各类型节点的 CPU 使用率。

内存规格

analysis_node_memory_quota

GiB

各类型节点的内存规格。

内存使用率

analysis_node_memory_usage_percent

%

各类型节点的内存使用率。

读写指标

监控项名称

监控项 ID

单位

说明

连接数

analysis_node_query_connection_total

Count

分析服务的连接数。

查询 QPS

analysis_node_query_total_qps

分析服务的查询 QPS。

查询平均时延

analysis_node_query_latency_avg

ms

分析服务的查询平均延时。

数据写入吞吐

analysis_node_streaming_write_bytes_per_second

分析服务的数据写入吞吐。

ML服务指标

监控项名称

监控项 ID

单位

说明

节点CPU规格

ai_node_cpu_count

Core

ML 服务节点的 CPU 规格。

节点内存规格

ai_node_memory_total

GiB

ML 服务节点的内存规格。

节点磁盘规格

ai_node_disk_total

GiB

ML 服务节点的磁盘规格。

节点CPU使用率

ai_node_cpu_usage

%

ML 服务节点的 CPU 使用率。

节点内存使用量

ai_node_memory_used

GiB

ML 服务节点的内存使用量。

节点磁盘使用量

ai_node_disk_used

GiB

ML 服务节点的磁盘使用量。

节点网络流入速度

ai_node_network_receive_speed

KiB/s

ML 服务节点的网络流入速度。

节点网络流出速度

ai_node_network_send_speed

KiB/s

ML 服务节点的网络流出速度。

QPS

ai_node_qps

ML 服务的 QPS。

平均响应时间

ai_node_mean_reponse_ms

μs

ML 服务的平均响应时间。

节点GPU数

ai_node_gpu_count

Count

ML 服务节点使用的 GPU 个数。

节点GPU使用率

ai_node_gpu_usage

%

ML 服务节点 GPU 使用率。

节点GRAM容量

ai_node_gram_total

GiB

ML 服务节点的 GRAM 容量。

节点GRAM用量

ai_node_gram_used

GiB

ML 服务节点 GRAM 使用率。