You need to enable JavaScript to run this app.
文档中心
复制全文
下载 pdf
学习课程与培训
多模态数据湖用户学习路径
复制全文
下载 pdf
多模态数据湖用户学习路径

1 学习路径概述

多模态数据湖是一套融合 AI 数据湖服务(LAS)、E-MapReduce(EMR)云原生数仓 ByteHouse 等核心产品的一站式多模态数据管理与价值挖掘体系,聚焦企业结构化、半结构化、非结构化(文本、图像、音视频、向量等)多种类型数据的统一入湖、存储、管理、处理与分析,无缝衔接 AI 训练、大数据计算、商业智能等下游场景,打破数据孤岛,实现从数据资产化到数据价值化的全链路落地,是为 AI 时代打造的新一代企业级数据基建。
Image
产品协同分工如下:

  • LAS 主要负责承接图片、文本、音视频等多模态数据的统一入湖与湖格式存储,提供多模态元数据与权限、数据集管理、内置算子与工作流,以及与火山方舟、向量数据库等 AI 生态的无缝衔接;
  • EMR 提供基于 Hadoop、Spark、Flink、Ray 等的大数据计算与开发环境,同时提供弹性可扩展的底层算力资源(CPU 与 GPU)以及多种分布式计算引擎,承担大规模离线/实时数据接入、清洗、特征加工和湖上多引擎访问能力;
  • ByteHouse 作为云原生数据仓库,在与数据湖和对象存储打通的基础上,提供高性能、弹性、低成本的湖仓一体分析与向量检索能力,支撑报表洞察、交互式分析以及多模态检索等上层应用。

2 核心能力

多模态数据湖主要包含以下核心能力:

  1. 数据入湖:支持图片、文本、音视频等多模态及多种计算引擎统一写入数据湖,保留原始数据与关键特征,打通线上业务与 AI 训练的数据通路。
  2. 数据集管理:围绕业务视角搭建多模态数据库表,提供查询、编辑与导出能力,让实验数据集可复现、可对比、可共享。
  3. 数据处理:内置适配多样的多模态数据清洗与特征提取算子,支持拖拽式工作流编排,快速完成大规模非结构化数据预处理与质量校验。
  4. 向量检索:向量检索功能支持对文本、图片、视频等非结构化数据的向量特征进行存储和高效的相似度检索,可应用于以图搜图、以图搜视频、文本检索、文本搜图等场景,也可以与大模型结合构建智能化应用。
  5. 统一元数据:集中管理结构化、半结构化与非结构化数据的模式与标签,配合统一权限控制,实现跨引擎一处治理、全域可查可控。
  6. 对接 AI 生态:数据集可一键接入向量数据库、火山方舟平台,用于检索增强生成、预训练与微调,缩短模型从数据到上线的路径。

3 试用准备

在开始动手之前,建议先完成以下账号权限准备,避免在练习过程中频繁卡在权限或资源问题上。

权限授予可参考以下文档:

4 使用流程

如果您是第一次接触多模态数据湖,整体流程参考如下:
Image

Image

流程

流程名称

流程含义

概览

第一步

原始数据存储

将文本、图片、音视频等多模态数据统一上传至对象存储 TOS,完成数据的存储,为后续数据处理与检索提供基础数据源。

Image

第二步

创建数据集

在 LAS 中基于入湖数据创建结构化数据集,完成版本管理与权限配置,将原始多模态数据转化为可管理、可复用的数据资产。

Image

第三步

多模态数据处理

调用 LAS 内置的文本、图片、音视频、向量化等 AI 算子,对数据集进行清洗、特征提取、数据融合等预处理,生成适配检索与模型训练的高质量数据。

Image

第四库

数据入库

将处理后的多模态数据(含向量数据)写入目标存储或数据库(如 ByteHouse、向量数据库),完成数据的结构化存储与索引构建,为检索提供高效数据支撑。

Image

第五步

相似性检索

基于入库后的向量数据与结构化数据,在开发机中执行向量检索、混合检索等查询脚本,实现多模态数据的相似度匹配与精准查询,支撑智能问答、内容推荐等场景。

Image

5 学习路径

5.1 多模态数据湖数据开发工程师学习路径

5.1.1 角色定义

多模态数据湖场景下的数据开发工程师,是多模态数据湖的数据基建核心执行者,通常为企业大数据开发、数据仓库工程师。
核心负责 LAS 多模态数据的接入、清洗、处理与建模,实现多源异构数据的统一归集;负责 LAS 数据集管理、数据处理任务开发、函数管理与数据目录维护,为算法工程师提供高质量、可分析的多模态数据资产,保障数据湖的数据流稳定与数据质量。

5.1.2 学习目标愿景

通过本学习路径,数据开发工程师可习得以下必备基础技能:

  • 熟练掌握 LAS 多模态数据的接入与处理能力,能完成本地、数据库、三方平台等多源异构数据的 LAS 接入;
  • 精通 LAS 多模态数据处理,熟练使用 Daft 引擎对图像、文本等非结构化数据进行分布式处理和特征工程,满足复杂 AI 场景的数据预处理需求,实现多模态数据的清洗、转换与资产化;
  • 学习 LAS 数据集管理、函数管理、数据库管理的核心操作,搭建规范化的多模态数据仓库;并且掌握 LAS 的权限管理机制,能够设计和实施精细化的数据访问控制策略,确保数据安全合规。
  • 掌握 LAS 与其他数据工具的协同使用方法,保障数据湖的数据流高效、稳定,为 AI 模型训练提供高质量数据集支撑。

5.1.3 学习路径

学习阶段

学习任务

任务简介

入门阶段

初识产品

什么是 AI 数据湖服务

了解 LAS、EMR、ByteHouse 等产品在多模态数据湖中的产品定位、核心能力、孵化背景及核心应用场景,建立产品整体认知。

什么是 E-MapReduce

什么是 ByteHouse

快速入门

掌握 LAS 的基础操作流程,包括数据接入、数据集创建、基础数据处理的核心步骤。

数据集管理

了解 LAS 数据集的创建、编辑、发布与维护逻辑,建立多模态数据集的管理认知。

数据处理

数据处理

熟练掌握 LAS 的多模态数据处理能力,包括数据清洗、转换、融合的实操方法,适配文本、图像等多模态数据。

数据库管理

掌握 LAS 中数据库、数据表的创建、生命周期管理,搭建规范化的多模态数据存储架构。

函数管理

学会 LAS 自定义函数(UDF)的开发、部署与管理,实现个性化的多模态数据处理需求。

Daft 引擎

学习使用 Daft 对图像、文本等非结构化数据进行高效的分布式处理。

了解 LAS 在企业级 RAG、视频分析等场景下的具体应用实践,提升方案设计能力。

数据资产化

数据目录管理

掌握 LAS 多模态元数据的统一编目、检索与维护,实现数据资产的规范化、可追溯管理。

开发机连接实操

掌握本地文件、Web 连接器、数据库等多源数据的 LAS 接入实操,打破数据孤岛。

进阶阶段

开发提效

LAS SDK参考

学习 LAS 开发 SDK 的使用方法,实现数据处理任务的自动化、代码化开发,提升开发效率。

LAS API参考

掌握 LAS 开放 API 的调用逻辑,实现 LAS 与企业内部数据平台的对接与协同。

延伸学习

ByteHouse多模态检索

学习 ByteHouse 向量检索对文本、图片、视频等非结构化数据的向量特征进行高效的相似度检索,实现多模态数据以图搜图、文本搜图、图文混合检索等场景。

5.2 多模态数据湖算法工程师学习路径

5.2.1 角色定义

多模态数据湖场景下的算法工程师,是多模态数据湖价值落地的核心使用者,通常为企业机器学习、大模型训练、AI 算法研发工程师。
核心负责基于 LAS 多模态数据湖开展模型训练、模型微调、机器学习等 AI 场景开发;利用 LAS 的 AI 算子处理、多模态数据管理能力,快速获取高质量训练数据,不断迭代优化模型性能;实现 LAS 与火山方舟的无缝对接,完成大模型训练、微调与推理的全流程开发,充分发挥多模态数据的AI价值。

5.2.2 学习目标愿景

通过本学习路径,算法工程师可习得以下必备基础技能:

  • 熟练使用 LAS 的数据集管理能力,能够围绕模型训练任务快速组织、版本化和共享多模态数据。
  • 掌握 LAS AI 算子处理的使用方法,了解 Daft 引擎,能够为图像、文本、音视频等数据编写高效、可扩展的特征提取和数据增强脚本,实现多模态数据的特征提取、预处理与模型训练适配;
  • 掌握 LAS 与火山方舟的对接流程,完成从数据湖到模型训练、微调的端到端开发;
  • 学会利用 LAS 的能力构建数据闭环,高效回收和处理模型推理日志,用于模型蒸馏,加速模型迭代。
  • 能基于 LAS 开展机器学习、大模型训练等丰富 AI 场景的开发,提升模型开发效率,充分挖掘多模态数据的 AI 价值。

5.2.3 学习路径

学习阶段

学习任务

任务简介

入门阶段

入门认知阶段

什么是 AI 数据湖服务

了解 LAS、EMR、ByteHouse 等产品在多模态数据湖中的产品定位、核心能力、孵化背景及核心应用场景,建立产品整体认知。

什么是 E-MapReduce

什么是 ByteHouse

快速入门

快速掌握 LAS 中多模态数据的检索、获取、基础处理流程,适配模型训练的数据准备需求。

能力初识

初识 Daft 引擎LAS AI 算子处理Lance 数据格式等、以及它们如何帮助算法工程师解决多模态数据处理的痛点。

数据准备阶段

开发机管理

学会开发机的灵活使用。开发机是面向算法工程师的一站式专业开发环境,提供灵活 CPU/GPU 算力、支持 TOS/vePFS 存储挂载,预置 Daft、Ray、Spark 等开源镜像与持久化云盘。

任务管理

掌握 LAS 任务管理稳定、高性能的数据处理调度机制,理解对多种算法框架的支持方式,能够处理大规模数据处理任务,实现降本增效与开发效率提升。

工作流

学习如何实现多数据处理任务的可视化编排与调度执行。

元数据管理

学会快速筛选、获取 LAS 多模态数据湖中的数据目录数据库函数管理等内容,实现数据的高效准备。

文本算子

学习面向文本数据提供清洗、分词、属性抽取、分类等能力,用于快速构建下游 NLP/RAG 所需的结构化特征与标签。

图片算子

学习对图片进行质量筛查、检测识别、特征抽取等处理,产出可用于检索、推荐和多模态对齐的图像向量或属性信息。

音视频算子

了解音频视频中各算子能力,如支持音频转文字、视频帧提取、音视频时长切割、声纹识别等功能,完成音视频非结构化数据的解析与特征提取,适配音视频 AI 模型训练的数据准备。

多模态算子

掌握文本 - 图片 - 音视频跨模态融合、特征对齐、数据关联等能力,实现多类型数据的统一处理与特征融合,支撑多模态大模型训练的数据预处理。

向量化算子

支持文本/图片等多模态数据的向量生成、向量检索等能力,将非结构化数据转化为高维向量,适配大模型训练与向量数据库对接场景。

更多算子了解

学习 LAS 平台提供的除文本、图片、音视频、多模态、向量化之外的其他算子能力(如数据清洗、图片增强等),并掌握通过 Daft 引擎开发自定义算子的方法,以满足个性化多模态数据处理需求。

Daft 引擎快速上手

深入学习 Daft 的 DataFrame 操作、UDF(用户自定义函数)以及多模态数据类型的使用。

多模态数据融合实操合集

学会文本、图像等多模态数据的 LAS 融合处理,为多模态大模型训练提供高质量数据。

模型开发阶段

方舟大模型系列调用教程

掌握 LAS 多模态数据湖与火山方舟的无缝对接流程,实现训练数据到模型训练的端到端打通。

大模型数据蒸馏

参考真实案例,了解 LAS 在视频理解、大模型数据蒸馏等场景下的应用。

探索模型训练实践

学习如何利用 LAS 解决复杂的模型训练难题,优化模型开发与数据使用效率。

进阶阶段

开发提效

LAS SDK 参考

学习 LAS SDK 在 AI 场景中的使用,实现数据调取、模型训练的自动化代码开发。

LAS API 参考

掌握 LAS 开放 API 的调用,实现模型训练过程中数据的实时调取与动态更新。

延伸学习

在线服务

了解 LAS 的在线服务能力,掌握模型训练过程中数据的实时调取、在线分析方法。

5.3 多模态数据湖项目管理者学习路径

5.3.1 角色定义

多模态数据湖场景下的项目管理者,通常是企业大数据项目负责人员,是多模态数据湖建设与落地的统筹者。
核心主要负责项目的整体规划、资源协调、权限体系搭建、成本管控与项目落地效果把控,并统筹数据开发、算法团队的工作协同,保障多模态数据湖从搭建到应用全流程符合企业业务战略,实现数据资产的高效管理与价值落地。

5.3.2 学习目标愿景

通过本学习路径,项目管理者可习得以下必备基础技能:

  • 深刻理解 LAS 产品的核心能力与应用场景,能结合企业业务需求制定多模态数据湖建设的整体规划,在项目各阶段做出明智的技术选型决策;
  • 掌握 LAS 企业级权限管控体系的搭建与运维方法,实现数据目录、数据库、数据表的精细化权限管理;
  • 了解 LAS 计费模式与资源配置逻辑,完成合理的成本管控与资源规划。

5.3.3 学习路径

学习阶段

学习任务

任务简介

入门阶段

初识产品

什么是 AI 数据湖服务

了解 LAS、EMR、ByteHouse 等产品在多模态数据湖中的产品定位、核心能力、孵化背景及核心应用场景,建立产品整体认知。

什么是 E-MapReduce

什么是 ByteHouse

快速入门

快速了解 LAS 的整体操作流程、核心功能模块与产品使用逻辑,清晰各团队在 LAS 中的工作边界。

管理运营

企业级权限控制

掌握 LAS 三级数据管理架构(Catalog/Schema/Table)权限体系,学会角色与权限点的配置逻辑,完成新增授权、权限编辑/删除、用户/用户组权限管理的实操方法,搭建符合企业的权限体系。

成本优化与资源调度

了解 LAS 资源调度逻辑,学习根据业务需求调整资源配置、优化计费成本的实操技巧。

元数据目录管理

了解 LAS 多模态元数据统一管理的核心逻辑,掌握数据目录的搭建与维护方法,实现数据资产的规范化管理。

数据应用

探索非结构化数据处理

认识 Daft 引擎,了解 LAS 如何处理图片、音视频等非结构化数据。

洞悉数据湖与 AI 分析

了解 LAS 如何与下游分析及 AI 平台联动,支撑从数据到智能的价值链。

进阶阶段

延伸学习

探索企业级 AI 实践

学习基于 LAS 构建 RAG 等企业级 AI 应用的最佳实践,为 AI 项目规划提供输入。

最近更新时间:2026.05.26 10:01:30
这个页面对您有帮助吗?
有用
有用
无用
无用