监控服务
- 点击「可信运维监控-监控服务」跳转至托管Prometheus进行监控配置。
- 在用户账户下根据使用指引创建新的工作区,可自行选择存储15天/30天的规格。
- 创建完成后,提供工作区Remote Write URL(点击工作区-概览-地址信息)给PCC管理员,进行采集器配置。
- PCC管理员配置完成后,用户可在托管Prometheus-Explore查询监控指标。
- 业务属性,检索LLM相关指标
- 节点属性:node_cpu_seconds_total node_filesystem_files node_load5...
- 容器属性:container_cpu_cfs_periods_total container_cpu_load_average_10s container_fs_inodes_free..
- K8S属性:kubelet_cgroup_manager_duration_seconds_sum kubelet_container_log_filesystem_used_bytes..
- 告警配置
- 添加告警人配置,将飞书告警机器人填写到告警人信息中,将告警人添加到联系人组中。
- 手动创建告警规则(绑定工作区来区分不同集群告警)。
日志服务
- 点击「可信运维监控-日志服务」跳转到TLS。
- 首先创建日志项目。
- 点击创建好的日志项目,进一步创建日志主题,所有的日志数据都会被同步到日志主题里。
- 点击检索分析,选择配置的主题,然后进行索引配置,需要启用索引,比如开启全文索引。
- 进行日志写入授权,点击访问控制,找到权限策略->新建自定义策略->JSON编辑器,填入如下策略并提交。
{
"Statement": [
{
"Effect": "Allow",
"Action": [
"tls:DescribeTopic",
"tls:PutLogs"
],
"Resource": [
"*"
]
}
]
}
- 角色管理->新建角色;选择账号身份类型->其他账号,填写PCC主账号ID(固定为2103474265)。
- 填写角色名,必须以TLSCrossAccount开头,并填写后续自定义名称,添加显示名和备注,然后点击下一步。
- 搜索步骤1创建的策略,选中策略点击提交完成角色创建。
- 点击步骤3创建的角色->信任关系->编辑信任策略,修改trn中的root为role/ServiceRoleForTLS,保存角色编辑,完成授权。
- 请将角色TRN和需要同步的日志主题名称/ID提供给PCC管理员执行日志同步配置。PCC管理员完成配置后,即可在检索分析界面看到日志数据。
- 创建告警通知组。在日志服务的通知组栏目点击进行「创建通知组」,填写告警的通知对象,支持用户/用户组,webhook支持飞书、钉钉、企业微信等通知渠道。
- 配置告警策略。