多模态数据湖是一套融合 AI 数据湖服务(LAS)、E-MapReduce(EMR) 和 云原生数仓 ByteHouse 等核心产品的一站式多模态数据管理与价值挖掘体系,聚焦企业结构化、半结构化、非结构化(文本、图像、音视频、向量等)多种类型数据的统一入湖、存储、管理、处理与分析,无缝衔接 AI 训练、大数据计算、商业智能等下游场景,打破数据孤岛,实现从数据资产化到数据价值化的全链路落地,是为 AI 时代打造的新一代企业级数据基建。
产品协同分工如下:
多模态数据湖主要包含以下核心能力:
在开始动手之前,建议先完成以下账号权限准备,避免在练习过程中频繁卡在权限或资源问题上。
权限授予可参考以下文档:
如果您是第一次接触多模态数据湖,整体流程参考如下:
流程 | 流程名称 | 流程含义 | 概览 |
|---|---|---|---|
第一步 | 原始数据存储 | 将文本、图片、音视频等多模态数据统一上传至对象存储 TOS,完成数据的存储,为后续数据处理与检索提供基础数据源。 | |
第二步 | 创建数据集 | 在 LAS 中基于入湖数据创建结构化数据集,完成版本管理与权限配置,将原始多模态数据转化为可管理、可复用的数据资产。 | |
第三步 | 多模态数据处理 | 调用 LAS 内置的文本、图片、音视频、向量化等 AI 算子,对数据集进行清洗、特征提取、数据融合等预处理,生成适配检索与模型训练的高质量数据。 | |
第四库 | 数据入库 | 将处理后的多模态数据(含向量数据)写入目标存储或数据库(如 ByteHouse、向量数据库),完成数据的结构化存储与索引构建,为检索提供高效数据支撑。 | |
第五步 | 相似性检索 | 基于入库后的向量数据与结构化数据,在开发机中执行向量检索、混合检索等查询脚本,实现多模态数据的相似度匹配与精准查询,支撑智能问答、内容推荐等场景。 |
多模态数据湖场景下的数据开发工程师,是多模态数据湖的数据基建核心执行者,通常为企业大数据开发、数据仓库工程师。
核心负责 LAS 多模态数据的接入、清洗、处理与建模,实现多源异构数据的统一归集;负责 LAS 数据集管理、数据处理任务开发、函数管理与数据目录维护,为算法工程师提供高质量、可分析的多模态数据资产,保障数据湖的数据流稳定与数据质量。
通过本学习路径,数据开发工程师可习得以下必备基础技能:
学习阶段 | 学习任务 | 任务简介 | |
|---|---|---|---|
入门阶段 | 初识产品 | 了解 LAS、EMR、ByteHouse 等产品在多模态数据湖中的产品定位、核心能力、孵化背景及核心应用场景,建立产品整体认知。 | |
掌握 LAS 的基础操作流程,包括数据接入、数据集创建、基础数据处理的核心步骤。 | |||
了解 LAS 数据集的创建、编辑、发布与维护逻辑,建立多模态数据集的管理认知。 | |||
数据处理 | 熟练掌握 LAS 的多模态数据处理能力,包括数据清洗、转换、融合的实操方法,适配文本、图像等多模态数据。 | ||
掌握 LAS 中数据库、数据表的创建、生命周期管理,搭建规范化的多模态数据存储架构。 | |||
学会 LAS 自定义函数(UDF)的开发、部署与管理,实现个性化的多模态数据处理需求。 | |||
学习使用 Daft 对图像、文本等非结构化数据进行高效的分布式处理。 | |||
了解 LAS 在企业级 RAG、视频分析等场景下的具体应用实践,提升方案设计能力。 | |||
数据资产化 | 掌握 LAS 多模态元数据的统一编目、检索与维护,实现数据资产的规范化、可追溯管理。 | ||
掌握本地文件、Web 连接器、数据库等多源数据的 LAS 接入实操,打破数据孤岛。 | |||
进阶阶段 | 开发提效 | 学习 LAS 开发 SDK 的使用方法,实现数据处理任务的自动化、代码化开发,提升开发效率。 | |
掌握 LAS 开放 API 的调用逻辑,实现 LAS 与企业内部数据平台的对接与协同。 | |||
延伸学习 | 学习 ByteHouse 向量检索对文本、图片、视频等非结构化数据的向量特征进行高效的相似度检索,实现多模态数据以图搜图、文本搜图、图文混合检索等场景。 | ||
多模态数据湖场景下的算法工程师,是多模态数据湖价值落地的核心使用者,通常为企业机器学习、大模型训练、AI 算法研发工程师。
核心负责基于 LAS 多模态数据湖开展模型训练、模型微调、机器学习等 AI 场景开发;利用 LAS 的 AI 算子处理、多模态数据管理能力,快速获取高质量训练数据,不断迭代优化模型性能;实现 LAS 与火山方舟的无缝对接,完成大模型训练、微调与推理的全流程开发,充分发挥多模态数据的AI价值。
通过本学习路径,算法工程师可习得以下必备基础技能:
学习阶段 | 学习任务 | 任务简介 | |
|---|---|---|---|
入门阶段 | 入门认知阶段 | 了解 LAS、EMR、ByteHouse 等产品在多模态数据湖中的产品定位、核心能力、孵化背景及核心应用场景,建立产品整体认知。 | |
快速掌握 LAS 中多模态数据的检索、获取、基础处理流程,适配模型训练的数据准备需求。 | |||
能力初识 | 初识 Daft 引擎、LAS AI 算子处理、Lance 数据格式等、以及它们如何帮助算法工程师解决多模态数据处理的痛点。 | ||
数据准备阶段 | 学会开发机的灵活使用。开发机是面向算法工程师的一站式专业开发环境,提供灵活 CPU/GPU 算力、支持 TOS/vePFS 存储挂载,预置 Daft、Ray、Spark 等开源镜像与持久化云盘。 | ||
掌握 LAS 任务管理稳定、高性能的数据处理调度机制,理解对多种算法框架的支持方式,能够处理大规模数据处理任务,实现降本增效与开发效率提升。 | |||
学习如何实现多数据处理任务的可视化编排与调度执行。 | |||
学习面向文本数据提供清洗、分词、属性抽取、分类等能力,用于快速构建下游 NLP/RAG 所需的结构化特征与标签。 | |||
学习对图片进行质量筛查、检测识别、特征抽取等处理,产出可用于检索、推荐和多模态对齐的图像向量或属性信息。 | |||
音视频算子 | 了解音频、视频中各算子能力,如支持音频转文字、视频帧提取、音视频时长切割、声纹识别等功能,完成音视频非结构化数据的解析与特征提取,适配音视频 AI 模型训练的数据准备。 | ||
掌握文本 - 图片 - 音视频跨模态融合、特征对齐、数据关联等能力,实现多类型数据的统一处理与特征融合,支撑多模态大模型训练的数据预处理。 | |||
支持文本/图片等多模态数据的向量生成、向量检索等能力,将非结构化数据转化为高维向量,适配大模型训练与向量数据库对接场景。 | |||
学习 LAS 平台提供的除文本、图片、音视频、多模态、向量化之外的其他算子能力(如数据清洗、图片增强等),并掌握通过 Daft 引擎开发自定义算子的方法,以满足个性化多模态数据处理需求。 | |||
深入学习 Daft 的 DataFrame 操作、UDF(用户自定义函数)以及多模态数据类型的使用。 | |||
学会文本、图像等多模态数据的 LAS 融合处理,为多模态大模型训练提供高质量数据。 | |||
模型开发阶段 | 掌握 LAS 多模态数据湖与火山方舟的无缝对接流程,实现训练数据到模型训练的端到端打通。 | ||
参考真实案例,了解 LAS 在视频理解、大模型数据蒸馏等场景下的应用。 | |||
学习如何利用 LAS 解决复杂的模型训练难题,优化模型开发与数据使用效率。 | |||
进阶阶段 | 开发提效 | 学习 LAS SDK 在 AI 场景中的使用,实现数据调取、模型训练的自动化代码开发。 | |
掌握 LAS 开放 API 的调用,实现模型训练过程中数据的实时调取与动态更新。 | |||
延伸学习 | 了解 LAS 的在线服务能力,掌握模型训练过程中数据的实时调取、在线分析方法。 | ||
多模态数据湖场景下的项目管理者,通常是企业大数据项目负责人员,是多模态数据湖建设与落地的统筹者。
核心主要负责项目的整体规划、资源协调、权限体系搭建、成本管控与项目落地效果把控,并统筹数据开发、算法团队的工作协同,保障多模态数据湖从搭建到应用全流程符合企业业务战略,实现数据资产的高效管理与价值落地。
通过本学习路径,项目管理者可习得以下必备基础技能:
学习阶段 | 学习任务 | 任务简介 | |
|---|---|---|---|
入门阶段 | 初识产品 | 了解 LAS、EMR、ByteHouse 等产品在多模态数据湖中的产品定位、核心能力、孵化背景及核心应用场景,建立产品整体认知。 | |
快速了解 LAS 的整体操作流程、核心功能模块与产品使用逻辑,清晰各团队在 LAS 中的工作边界。 | |||
管理运营 | 掌握 LAS 三级数据管理架构(Catalog/Schema/Table)权限体系,学会角色与权限点的配置逻辑,完成新增授权、权限编辑/删除、用户/用户组权限管理的实操方法,搭建符合企业的权限体系。 | ||
了解 LAS 资源调度逻辑,学习根据业务需求调整资源配置、优化计费成本的实操技巧。 | |||
了解 LAS 多模态元数据统一管理的核心逻辑,掌握数据目录的搭建与维护方法,实现数据资产的规范化管理。 | |||
数据应用 | 认识 Daft 引擎,了解 LAS 如何处理图片、音视频等非结构化数据。 | ||
了解 LAS 如何与下游分析及 AI 平台联动,支撑从数据到智能的价值链。 | |||
进阶阶段 | 延伸学习 | 学习基于 LAS 构建 RAG 等企业级 AI 应用的最佳实践,为 AI 项目规划提供输入。 | |