最近更新时间:2024.04.26 15:29:02
首次发布时间:2024.04.26 15:29:02
通过分布式云原生平台纳管三方云或 IDC 容器集群,实现云上统一的观测数据收集、展示与告警。本文为您介绍多云集群观测实践的详细使用方法。
创建一个开启公网访问的 VMP 工作区,用于采集多云集群观测数据。
本场景涉及的关键配置说明如下,其他按需配置即可,详细操作步骤和配置项说明参见:创建工作区。
配置项 | 说明 |
---|---|
Basic Auth | 配置 Basic Auth 认证功能,本场景需要开启此配置。
说明 开启 Basic Auth 时,需要自定义配置用户名及密码,用于数据写入与查询。 |
公网访问 | 公网访问开关,本场景需要开启此配置。开启后,支持通过公网访问工作区,建议优先使用公钥认证。 说明 若缺少 VMP 工作区的公网访问配额,请联系官方技术支持申请配额。 |
工作区类型 | 配置工作区的类型,包括:标准版 和 企业版(独占)。本场景选择标准版,因为公网采集方式目前仅支持选择标准版工作区。 |
前往分布式云原生平台,为注册集群安装 prometheus-agent 组件,用于采集 Kubernetes 集群监控指标数据到托管 Prometheus 服务。
...
中的 安装,根据引导依次配置组件相关信息,完成后单击 确定,等待组件安装完成。本场景涉及的关键配置说明如下,其他按需配置即可,详细操作步骤和配置项说明参见:prometheus-agent 组件配置。
配置项 | 说明 |
---|---|
prometheus 工作区 | 开启 通过公网采集监控数据,并选择步骤一中创建的 VMP 工作区。 |
认证方式 | 选择 Basic Auth 并填写步骤一中配置的用户名及密码。 |
登录 分布式云原生控制台,前往 Prometheus 监控模块查看集群监控、节点监控、容器组监控、容器监控等内置面板。更多详细介绍参见:Prometheus 监控。
通过 Basic Auth 认证在 Grafana 中添加数据源,并通过 Query URL 地址将采集到的数据接入到 Grafana 平台。
说明
确保 Grafana 已经配置端口映射,否则无法正常登录。若漏配,可执行kubectl port-forward service/grafana 3000:3000 -n volcano-metrics
命令进行配置。
单击页面底部的 Save & Test,系统显示 Successfully queried the Prometheus API,表示工作区已经正确接入 Grafana。
本场景通过导入方式创建 Grafana 监控大盘,配置完成后在 Grafana 左侧导航栏选择 Dashboards,单击进入已经创建的大盘,即可查看配置的监控大盘。Json 示例和效果图如下:
监控面板 | 配置示例 | 效果图 |
---|---|---|
集群总览 | ||
节点总览 | ||
节点 TOP N | ||
工作负载总览 | ||
命名空间总览 | ||
Deployment 详情 |
说明
建议使用各云厂商提供的 GPU 插件进行安装。
kubectl apply -f https://vmp-release-cn-beijing.tos-cn-beijing.volces.com/manifests/crds/promopeartor-crd-servicemonitors.yaml
metric-labels-allowlist
配置,为 kube-state-metric 增加 AI 套件指标的白名单权限。containers: - args: - --pod=$(POD_NAME) - --pod-namespace=$(POD_NAMESPACE) - --metric-labels-allowlist=pods=[ai.vke.volcengine.com/task,ai.vke.volcengine.com/job,ai.vke.volcengine.com/team,ai.vke.volcengine.com/user]
kubectl apply -f gpu_metrics_all_in_one.yaml
命令,通过守护进程方式,为容器集群安装 GPU 监控组件。示例 Yaml 如下:说明
可根据不同云厂商 GPU 节点标签配置,修改 Yaml 中的matchExpressions
参数的 key 和 operator,调整相应组件的调度策略。
监控面板 | 配置示例 | 效果图 |
---|---|---|
集群 AI 监控大盘 | ||
节点 GPU 大盘 | ||
训练任务大盘 |