服务内置丰富的数据处理算子,涵盖大部分非结构化数据场景,包含文本、图像、视频等共40余个内置算子服务,同时您可以根据自身业务基于 Python 脚本自定义算子服务,满足您更加定制化的数据处理工作流串联需求。
本文为您介绍构建自定义算子并运行工作流的具体操作。
AI 数据湖支持用户上传自定义算子,在上传自定义算子时,需要填写算子的运行环境。例如,您的算子是基于 Spark 计算框架开发的,您需要提供保护 Spark 及其相关依赖的 Docker 镜像。
AI 数据湖内置了一些镜像,用户可以根据业务需求进行选择,也可以基于这些镜像开发自定义镜像。自定义镜像的操作指南可以参考:使用自定义 Docker 镜像运行作业。
Region | Region | 镜像仓库名称 | 镜像说明 | 镜像大小 | 备注依赖包 |
---|---|---|---|---|---|
华北 | cn-beijing | emr-vke-public-cn-beijing.cr.volces.com/emr/ray:2.44.0-cu12.2.2-py3.11-ubuntu22.04-493-3.15.1 | 包含 Ray 及其所需依赖的镜像,内置有 Conda、Java8、Hadoop 服务。 | 8GB |
|
您也可以参考 Ray 镜像列表,选择您合适的镜像。
Region | Region | 镜像仓库名称 | 镜像说明 | 镜像大小 | 备注依赖包 |
---|---|---|---|---|---|
华北 | cn-beijing | emr-serverless-online-cn-beijing.cr.volces.com/public/spark:3.5.1-py3.12-ubuntu20.04-358 | 包含 Spark 及其所需依赖的镜像,内置有 Java8、Hadoop 等服务。 | 1.68GiB |
|
您也可以参考 Spark 镜像列表,选择您合适的镜像。
说明
更多内置镜像,请参考 AI 数据湖提供内置的镜像。
将可执行的 Python 代码,以及该代码运行所依赖的相关环境,整合封装到一个 Docker 镜像中。
Dockerfile 可以参考:
说明
请将镜像上传到火山的私有镜像仓库中。
在自定义算子的功能页面,选择对应的镜像,添加启动参数,注册成自定义算子。
示例,/home/main.py 脚本中有两个参数,一般在linux中启动命令为 python /home/main.py --op_type xx --op_name xx
,这时需要在“基本信息”中的“启动命令”中填写python /home/main.py
,参数配置文件配置op_type
和op_name
。
在工作流功能模块,通过拖拉拽的方式,将自定义算子移动到画布中,配置需要的资源信息即可。
配置完成运行相关的参数,并点击运行按钮。