Ray 社区目前暂未提供历史作业查看方案,因此针对上述用户痛点需求,EMR 团队研发了 RayHistoryServer 组件,方便用户查看历史作业。下面详细介绍 EMR on VKE 形态如何开启以及使用 RayHistoryServer。
注意
如上图所示,在选择 Ray 服务时,建议同时开启 RayHistoryServer(默认只会占用1CU 资源),同时需要填写一个 TOS 地址(用力存放 Ray 历史作业元数据以及日志信息)以及对应的 AK/SK(可以设置 AK/SK 只对上述 TOS 具备读写权限)。
创建集群成功后,在下述页面可以查到 RayHistoryServer 的 UI 入口:
可以在历史页面通过 EMR 集群 ID 以及 RayCluster 名字找到对应集群入口点击进入查看历史作业详情。
目前 RayHistoryServer 仅支持上述配置,其中用户最有可能用到的除了 cpu/memory 资源配置之外,就是 retained_days 配置,此配置要来设置保存历史作业的有效时间,默认15,代表保存最近15天的历史作业信息。
开启历史作业后,用户可能需要对部分特殊作业不记录到 RayHistoryServer 中,可以通过配置 yaml 中的 annotation 解决,如下所示:
apiVersion: ray.io/v1 kind: RayCluster metadata: annotations: #下述配置用于配置某些特殊作业不记录RayHistoryServer ray.io/enable-ray-history-server: false labels: app.kubernetes.io/managed-by: Helm app.kubernetes.io/name: kuberay helm.sh/chart: ray-cluster-1.0.0 name: raycluster spec: enableInTreeAutoscaling: false headGroupSpec: rayStartParams: ....