You need to enable JavaScript to run this app.
导航
算子管理
最近更新时间:2025.05.19 19:02:52首次发布时间:2025.04.22 19:25:23
我的收藏
有用
有用
无用
无用

服务内置丰富的数据处理算子,涵盖大部分非结构化数据场景,包含文本、图像、视频等共40余个内置算子服务,同时您可以根据自身业务基于 Python 脚本自定义算子服务,满足您更加定制化的数据处理工作流串联需求。
本文为您介绍构建自定义算子并运行工作流的具体操作。

自定义算子

AI 数据湖支持用户上传自定义算子,在上传自定义算子时,需要填写算子的运行环境。例如,您的算子是基于 Spark 计算框架开发的,您需要提供保护 Spark 及其相关依赖的 Docker 镜像。

镜像准备

AI 数据湖内置了一些镜像,用户可以根据业务需求进行选择,也可以基于这些镜像开发自定义镜像。自定义镜像的操作指南可以参考:使用自定义 Docker 镜像运行作业

内置镜像

Ray的基础镜像

Region
(中文名称)

Region
(英文名称)

镜像仓库名称

镜像说明

镜像大小

备注依赖包

华北

cn-beijing

emr-vke-public-cn-beijing.cr.volces.com/emr/ray:2.44.0-cu12.2.2-py3.11-ubuntu22.04-493-3.15.1

包含 Ray 及其所需依赖的镜像,内置有 Conda、Java8、Hadoop 服务。

8GB

  • Ray 2.44.0
  • Cuda 12.2.2
  • Python 3.11
  • Java 8
  • Hadoop 3.3.4

您也可以参考 Ray 镜像列表,选择您合适的镜像。

Spark的基础镜像

Region
(中文名称)

Region
(英文名称)

镜像仓库名称

镜像说明

镜像大小

备注依赖包

华北

cn-beijing

emr-serverless-online-cn-beijing.cr.volces.com/public/spark:3.5.1-py3.12-ubuntu20.04-358

包含 Spark 及其所需依赖的镜像,内置有 Java8、Hadoop 等服务。

1.68GiB

  • Spark 3.5.1
  • Python 3.12
  • Java 8
  • Hadoop 3.3.4

您也可以参考 Spark 镜像列表,选择您合适的镜像。

说明

更多内置镜像,请参考 AI 数据湖提供内置的镜像

自定义镜像

将可执行的 Python 代码,以及该代码运行所依赖的相关环境,整合封装到一个 Docker 镜像中。
Dockerfile 可以参考:

说明

请将镜像上传到火山的私有镜像仓库中。

LAS 服务中创建算子

在自定义算子的功能页面,选择对应的镜像,添加启动参数,注册成自定义算子。

  1. 支持的作业类型有:python、Spark、Ray,需要根据业务实现逻辑进行具体选择。
  2. 启动命令,填写业务工程的启动命令,建议使用绝对路径。启动命令中设置的参数,可以通过下面的参数信息进行配置
  3. 参数信息中,输入启动命令中需要的参数信息。

示例,/home/main.py 脚本中有两个参数,一般在linux中启动命令为 python /home/main.py --op_type xx --op_name xx,这时需要在“基本信息”中的“启动命令”中填写python /home/main.py,参数配置文件配置op_typeop_name

  1. 创建后,可以在算子管理中查看到自定义算子:

基于自定义算子创建工作流

创建工作流

在工作流功能模块,通过拖拉拽的方式,将自定义算子移动到画布中,配置需要的资源信息即可。

配置完成运行相关的参数,并点击运行按钮。

查询运行记录