LAS 为您提供了针对核心产品功能的运维监控能力,提供了常见监控指标的监控数据看板,同时联合火山引擎云监控产品为您提供了告警、回调事件等监控能力。本文为您概要介绍 LAS 的运维监控能力说明。
以下为您介绍核心功能模块为您提供的主要监控指标与监控看板查看入口。
LAS 为您提供“算子服务”功能,在算子服务页面您可以查看各算子的调用量、Tokens消耗趋势等详情,详情可参见算子服务。
LAS 支持使用不同类型的队列,不同类型的队列的监控能力和入口略有差异。
数据集为您提供了操作日志功能,您可在对应数据集详情页面的操作日志页面查看对应数据集的操作详情。
创建完成开发机后,您可在开发机详情中的监控页面中查看开发的CPU、内存等核心监控指标数据,同时可在操作日志页面中查看开发机的操作日志详情。
LAS 同时对接了火山引擎云监控事件中心,支持对接多个事件进行监控记录,已支持的 LAS 云产品事件包括数据集、开发机、资源管理、在线服务、作业管理、工作流功能的核心事件,请参见 云监控事件查询。
当对应的事件被触发时,就会产生一个事件记录在云监控的事件中心,您可以通过云监控的事件消费能力进行订阅、查看,例如,您配置webhook来回调这些事件。
以下以回调云监控中的云产品事件为例,为您示例如何消费云监控中的监控事件。
创建事件规则后,如果有新的事件就会触发回调,服务端会收到下面这样的 Json 内容:
{ "Type": "Event", "AccountName": "xxx", "AccountId": "123", "Source": "AI数据湖服务 作业管理", "Id": "xxx", "EventType": "lake_ai_service_task:TaskInstance:taskInstanceRunFailed", "Description": "作业实例运行失败", "HappenedAt": 1769584967, "Region": "华北2(北京)", "Details": { "data": { "accountId": "123", "message": "UserCodeException", "region": "cn-beijing", "taskId": "t-uuid" }, "datacontenttype": "application/json; charset=utf-8", "id": "6979b947293353438410****", "resourceid": "ti-uuid", "source": "lake_ai_service_task", "specversion": "1.0", "subject": "trn:las:cn-beijing:123:lake_ai_service_task/ti-uuid", "time": "2026-01-28T15:22:47+08:00", "type": "lake_ai_service_task:TaskInstance:taskInstanceRunFailed", "volcaccountid": "123", "volceventbusname": "default", "volcpublishtime": "2026-01-28T15:22:47+08:00", "volcregion": "cn-beijing", "volcresourcename": "" }, "ProjectName": "", "TagSet": [], "Rules": [ { "RuleId": "123", "RuleName": "test", "Level": "notice", "RuleURL": "https://console.volcengine.com/observe/cloud-monitor/event/rules/detail?id=123" } ] }
在服务端收到上面回调后,可通过 LAS 提供的OpenAPI 接口(任务管理/工作流),通过 SDK 获取任务实例信息、启动新的任务实例。