You need to enable JavaScript to run this app.
AI 数据湖服务

AI 数据湖服务

复制全文
运维与监控
LAS 运维与监控概述
复制全文
LAS 运维与监控概述

LAS 为您提供了针对核心产品功能的运维监控能力,提供了常见监控指标的监控数据看板,同时联合火山引擎云监控产品为您提供了告警、回调事件等监控能力。本文为您概要介绍 LAS 的运维监控能力说明。

LAS 监控看板概述

以下为您介绍核心功能模块为您提供的主要监控指标与监控看板查看入口。

算子监控

LAS 为您提供“算子服务”功能,在算子服务页面您可以查看各算子的调用量、Tokens消耗趋势等详情,详情可参见算子服务
Image

资源管理(队列)

LAS 支持使用不同类型的队列,不同类型的队列的监控能力和入口略有差异。

  • 直接使用 EMR Serverless 队列资源作为 LAS 的独占队列资源时,您可跳转至EMR Serverless 队列资源页面,查看对应队列资源的监控指标,详情请参见 资源与作业监控
    Image
  • 使用老版 LAS 计算队列时,您可在队列详情中查看队列的CPU、内存等核心资源监控指标;同时您也可在操作日志中查看队列操作日志详情。
    Image

数据集

数据集为您提供了操作日志功能,您可在对应数据集详情页面的操作日志页面查看对应数据集的操作详情。
Image

开发机

创建完成开发机后,您可在开发机详情中的监控页面中查看开发的CPU、内存等核心监控指标数据,同时可在操作日志页面中查看开发机的操作日志详情。
Image

云监控事件监控

支持监控的事件列表

LAS 同时对接了火山引擎云监控事件中心,支持对接多个事件进行监控记录,已支持的 LAS 云产品事件包括数据集、开发机、资源管理、在线服务、作业管理、工作流功能的核心事件,请参见 云监控事件查询
Image
当对应的事件被触发时,就会产生一个事件记录在云监控的事件中心,您可以通过云监控的事件消费能力进行订阅、查看,例如,您配置webhook来回调这些事件。

应用实践:云监控事件回调

以下以回调云监控中的云产品事件为例,为您示例如何消费云监控中的监控事件。

准备工作:查看事件参数

  1. 您可以在"云监控-云产品事件"相关事件记录,例如,查看作业(任务)和工作流的相关事件。
    Image
  2. 在事件详情中查看事件类型(type)、任务模板或工作流模板 id(taskId)、当前实例 id(resourceid),这些都将在 webhook 回调中被用到。
    Image

创建通知模板

  1. 在"云监控-通知-通知内容模板"中创建一个模板,这个模板将决定回调的 POST 请求会传哪些 Json 参数。
    Image
  2. 配置回调模版参数。
    Image
    • 通知类型选择“事件”
    • 通知渠道选择“自定义回调”。
    • 模版内容使用默认的"自定义回调"模板即可。

配置回调规则

  1. 在"云监控-通知-回调"中创建一个回调地址。
    Image
  2. 选择"通用回调地址",填写地址后可以测试 Post 回调
    Image
  3. 在"云监控-事件中心-事件规则"创建一个事件规则
    Image
  4. 用 data.taskId 可以过滤关注的任务,设置告警回调、绑定之前创建的回调地址和内容模板。

Image

事件回调示例

创建事件规则后,如果有新的事件就会触发回调,服务端会收到下面这样的 Json 内容:

{
  "Type": "Event",
  "AccountName": "xxx",
  "AccountId": "123",
  "Source": "AI数据湖服务 作业管理",
  "Id": "xxx",
  "EventType": "lake_ai_service_task:TaskInstance:taskInstanceRunFailed",
  "Description": "作业实例运行失败",
  "HappenedAt": 1769584967,
  "Region": "华北2(北京)",
  "Details": {
    "data": {
      "accountId": "123",
      "message": "UserCodeException",
      "region": "cn-beijing",
      "taskId": "t-uuid"
    },
    "datacontenttype": "application/json; charset=utf-8",
    "id": "6979b947293353438410****",
    "resourceid": "ti-uuid",
    "source": "lake_ai_service_task",
    "specversion": "1.0",
    "subject": "trn:las:cn-beijing:123:lake_ai_service_task/ti-uuid",
    "time": "2026-01-28T15:22:47+08:00",
    "type": "lake_ai_service_task:TaskInstance:taskInstanceRunFailed",
    "volcaccountid": "123",
    "volceventbusname": "default",
    "volcpublishtime": "2026-01-28T15:22:47+08:00",
    "volcregion": "cn-beijing",
    "volcresourcename": ""
  },
  "ProjectName": "",
  "TagSet": [],
  "Rules": [
    {
      "RuleId": "123",
      "RuleName": "test",
      "Level": "notice",
      "RuleURL": "https://console.volcengine.com/observe/cloud-monitor/event/rules/detail?id=123"
    }
  ]
}
  • EventType 事件类型
  • Details.resourceid 事件所属的任务实例 id

在服务端收到上面回调后,可通过 LAS 提供的OpenAPI 接口(任务管理/工作流),通过 SDK 获取任务实例信息、启动新的任务实例。

最近更新时间:2026.02.10 15:51:19
这个页面对您有帮助吗?
有用
有用
无用
无用