You need to enable JavaScript to run this app.
导航
使用 RayHistoryServer 查看历史作业
最近更新时间:2025.06.09 19:38:05首次发布时间:2024.08.22 10:54:43
我的收藏
有用
有用
无用
无用

Ray 社区目前暂未提供历史作业查看方案,因此针对上述用户痛点需求,EMR 团队研发了 RayHistoryServer 组件,方便用户查看历史作业。下面详细介绍 EMR on VKE 形态如何开启以及使用 RayHistoryServer。

注意

  • 目前 RayHistoryServer 仅支持查看已经运行结束的作业,针对运行中的作业可以使用 Ray 社区原生的 UI 查看运行中的作业情况。
  • 强烈建议客户开启 RayHistoryServer,尤其是以 RayJob 方式使用 Ray 的场景。开启 RayHistoryServer 后,可高效分析 RayJob 失败的原因。

开启 RayHistoryServer

如上图所示,在选择 Ray 服务时,建议同时开启 RayHistoryServer(默认只会占用1CU 资源),同时需要填写一个 TOS 地址(用力存放 Ray 历史作业元数据以及日志信息)以及对应的 AK/SK(可以设置 AK/SK 只对上述 TOS 具备读写权限)。
创建集群成功后,在下述页面可以查到 RayHistoryServer 的 UI 入口:

可以在历史页面通过 EMR 集群 ID 以及 RayCluster 名字找到对应集群入口点击进入查看历史作业详情。

RayHistoryServer 相关配置

目前 RayHistoryServer 仅支持上述配置,其中用户最有可能用到的除了 cpu/memory 资源配置之外,就是 retained_days 配置,此配置要来设置保存历史作业的有效时间,默认15,代表保存最近15天的历史作业信息。

部分记录作业

开启历史作业后,用户可能需要对部分特殊作业不记录到 RayHistoryServer 中,可以通过配置 yaml 中的 annotation 解决,如下所示:

apiVersion: ray.io/v1
kind: RayCluster
metadata:
  annotations:
    #下述配置用于配置某些特殊作业不记录RayHistoryServer
    ray.io/enable-ray-history-server: false 
  labels:
    app.kubernetes.io/managed-by: Helm
    app.kubernetes.io/name: kuberay
    helm.sh/chart: ray-cluster-1.0.0
  name: raycluster
spec:
  enableInTreeAutoscaling: false
  headGroupSpec:
    rayStartParams:
    ....