You need to enable JavaScript to run this app.
导航
可信运维监控
最近更新时间:2025.04.21 10:14:14首次发布时间:2025.03.13 10:57:14
我的收藏
有用
有用
无用
无用

监控服务

  1. 点击「可信运维监控-监控服务」跳转至托管Prometheus进行监控配置。
  1. 在用户账户下根据使用指引创建新的工作区,可自行选择存储15天/30天的规格。
  1. 创建完成后,提供工作区Remote Write URL(点击工作区-概览-地址信息)给PCC管理员,进行采集器配置。
  1. PCC管理员配置完成后,用户可在托管Prometheus-Explore查询监控指标。
  • 业务属性,检索LLM相关指标
  • 节点属性:node_cpu_seconds_total node_filesystem_files node_load5...
  • 容器属性:container_cpu_cfs_periods_total container_cpu_load_average_10s container_fs_inodes_free..
  • K8S属性:kubelet_cgroup_manager_duration_seconds_sum kubelet_container_log_filesystem_used_bytes..
  1. 告警配置
  • 添加告警人配置,将飞书告警机器人填写到告警人信息中,将告警人添加到联系人组中。
  • 创建告警策略,在策略中关联告警人组信息。
  • 手动创建告警规则(绑定工作区来区分不同集群告警)。
  • 在告警规则中编写查询语句,以及关联告警策略。

日志服务

  1. 点击「可信运维监控-日志服务」跳转到TLS。
  1. 首先创建日志项目。
  1. 点击创建好的日志项目,进一步创建日志主题,所有的日志数据都会被同步到日志主题里。
  1. 点击检索分析,选择配置的主题,然后进行索引配置,需要启用索引,比如开启全文索引。
  1. 进行日志写入授权,点击访问控制,找到权限策略->新建自定义策略->JSON编辑器,填入如下策略并提交。

Image

{
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "tls:DescribeTopic",
        "tls:PutLogs"
      ],
      "Resource": [
        "*"
      ]
    }
  ]
}
  1. 角色管理->新建角色;选择账号身份类型->其他账号,填写PCC主账号ID(固定为2103474265)。
  1. 填写角色名,必须以TLSCrossAccount开头,并填写后续自定义名称,添加显示名和备注,然后点击下一步。
  1. 搜索步骤1创建的策略,选中策略点击提交完成角色创建。
  1. 点击步骤3创建的角色->信任关系->编辑信任策略,修改trn中的root为role/ServiceRoleForTLS,保存角色编辑,完成授权。
  1. 请将角色TRN和需要同步的日志主题名称/ID提供给PCC管理员执行日志同步配置。PCC管理员完成配置后,即可在检索分析界面看到日志数据。
  1. 创建告警通知组。在日志服务的通知组栏目点击进行「创建通知组」,填写告警的通知对象,支持用户/用户组,webhook支持飞书、钉钉、企业微信等通知渠道。
  1. 配置告警策略。