You need to enable JavaScript to run this app.
导航
Workshop 快速入门
最近更新时间:2025.09.23 16:22:21首次发布时间:2025.08.19 16:02:43
复制全文
我的收藏
有用
有用
无用
无用

LAS(Lake AI Service)是火山引擎面向大模型时代推出的AI数据湖服务,孵化于字节跳动大模型训练场景,专注于文本、图像、音视频等多模态数据的统一存储、管理与高效处理。LAS 通过统一元数据管理、深度优化的Lance、Iceberg 等湖格式以及内置数百个多模态 AI 算子(如跨模态内容理解、数据增强),实现 PB 级非结构化数据的存储优化、版本控制和兼容 Ray、Daft、Spark 等分布式框架的 GPU/CPU 异构计算。LAS 无缝对接模型训练、微调及推理链路,支持企业构建从数据入湖、智能数据工程到模型应用的全流程闭环,解决数据冗余、血缘缺失及处理复杂等挑战,助力大模型时代数据竞争力提升。

前提条件

火山引擎账号准备

步骤一:注册和认证

  1. 使用 LAS 控制台,需先注册火山引擎账号,详见账号注册
  2. 火山引擎账号注册成功后,您需完成相关认证工作,详见个人认证企业认证

说明

  • 在进行实名认证之前,需先确认您在火山引擎购买的资源属于个人或者企业即账号是归属于个人或者企业,然后选择正确的实名认证类型进行,个人实名认证只能适用于个人,如果企业用户使用个人实名认证,账号归属于个人实名主体,后续出现人员变动引起的账号纠纷将会影响到企业用户业务的正常开展。
  • 个人认证仅可以登录 LAS 控制台,不能使用开发机等功能。更多个人实名与企业实名的区别,详见:主要区别
  • 注册完成,您可添加收藏常用的产品,如 AI 数据湖服务等。

步骤二:主账号密钥准备

说明

仅主账号和IAM用户可以拥有密钥,角色无法拥有密钥。密钥的最佳实践请参考API密钥最佳实践文档

用户需要获取当前身份的密钥,详细操作请参考:使用指南

步骤三:子账号准备

企业用户通过主账号购置云资源,并按需向不同 IAM 用户分配访问权限。员工可使用 IAM 用户登录控制台或调用 API 访问资源,既能以最小合理权限实现团队协作,又能有效保障云资源安全。
对于需登录控制台并使用其功能的 IAM 用户,需先在访问控制中为子用户创建并授予相应权限。

  1. 主账号登录 LAS 控制台
  2. 在右上角个人信息中,单击访问控制 > 用户管理 > 用户, 进入用户列表界面。
  3. 单击新建用户,进行子用户创建,创建操作详见访问控制

服务账号授权

说明

为确保您使用 LAS 产品时,IAM 子账号能正常访问所依赖的火山引擎其他服务,避免因权限问题受限,建议您进行一次批量授权(一次操作即可,推荐使用)。

  1. 主账号登录 LAS 控制台
  2. 完成对 LAS AI 数据湖服务相关服务进行访问授权。相关权限说明请见下表。

说明

  • 在首次开通和购买火山 AI 数据湖(LAS)产品服务前,系统将对租户主账号进行主动访问授权提醒,因这些权限与 LAS 的产品服务联系较为紧密,建议确定授权。具体权限服务使用将取决于用户实际需求而定。
  • 子账号的权限策略将由主账号授予,系统不会对子账号主动提醒。

产品

权限

说明

AI 数据湖服务 LAS

LASFullAccess

AI 数据湖服务 LAS 管理员权限,可以使用 LAS 控制台进行数据管理和数据预处理

对象存储 TOS

TOSFullAccess

对象存储(TOS)管理员权限,用于访问 TOS中的数据

负载均衡

CLBFullAccess

负载均衡(CLB)管理员权限,用于创建 CLB 登录开发机

VPC

VPCFullAccess

私有网络(VPC)管理员权限,用于创建 VPC

镜像仓库

CRFullAccess

镜像仓库(CR)管理员权限,用于镜像构建

操作步骤

本实践基本操作流程如下所示:

步骤一:LAS AI 服务开通

进入 LAS 控制台,首次开通将呈现开通界面,选择区域后一键开通产品服务。

说明

  • 当前全量产品功能仅支持选择华北 2(北京)、**华东 2(上海)**开通。如需开通其它区域的产品服务,选择后将呈现新区域开通页,勾选《AI 数据湖服务 LAS 服务条款》、《LAS 服务等级协议》后一键开通即可。
  • 计费相关内容请参考计费说明

步骤二:创建通用列队

说明

LAS 提供多种资源类型,包括:

  • 计算队列:支持 Daft、Saprk、Ray 等计算引擎,用于 RAG 工作流的数据计算处理。
  • 通用队列:用于开发机部署,快速搭建数据处理环境与服务。
  1. 进入资源管理 > 队列管理页面创建通用队列。
    1. 登录 LAS 控制台
    2. 在顶部菜单栏处,根据实际情况选择地域和项目。
      • 地域:创建的集群会在对应的地域内,一旦创建不能修改。
      • 项目:默认显示账号全部资源。
    3. 单击资源管理 > 队列管理 > 通用队列 > 创建通用队列
  2. 在创建队列页面,完成队列相关配置。

分类

配置项

示例

说明

资源信息

资源名称

LAS-DataLake

  • 长度 1-100 个字符
  • 仅支持中文、大小写字母、数字开头
  • 仅支持横线“-”及下划线“_”符号,不包含特殊字符

地域

华北2(北京)

支持:华北 2(北京)、华东 2(上海),页面上展示当前开通区域

部署方式

单可用区

支持单可用区

说明

不同可用区下包含不同资源。

可用区

可用区A

选择可用区(A、C、D)

付费信息

付费方式

包年包月

支持按量付费、包年包月

付费时长

1个月

按月:支持 1-6 个月;按年:支持 1-3 年

自动续费

Image

建议开启,避免因资源到期影响业务,续费周期为 每月,系统自动从余额扣费,无需手动支付

队列资源配置

队列类型

CPU队列

支持 CPU、GPU 两种资源类型

CPU机型

标准型1:4

  • CPU 机型支持标准型(1:4)、内存增强型(1:8)
  • GPU 支持多种机型,配置资源数量,机型支持参见计费说明

资源规格

32 CU

选择资源规格

  • 创建完成(队列为运行中)。

步骤三:创建开发机

开发机是 LAS 为算法开发者提供的专业开发环境,预先继承了丰富的开源镜像,减少环境搭建的成本,在资源支持层面,开发机提供灵活的计算资源配置,涵盖 CPU 与 GPU,能够满足不同复杂度任务的算力需求。同时,它支持 TOS、vePFS 等存储系统的挂载,为数据存储与读取提供稳定支撑。

前置准备

  1. 登录创建负载均衡。

    1. 登录负载均衡控制台
    2. 在顶部导航栏,选择目标项目和地域。
    3. 单击创建负载均衡按钮。
    4. 参考下表,配置相关参数。

    参数

    说明

    取值示例

    基本信息

    计费类型

    选择 CLB 实例的计费类型。

    • 按量计费:即后付费模式,按照使用时长收费。
    • 包年包月:即预付费模式,按照购买时长收费。

    包年包月

    地域

    选择CLB实例所在地域

    华东 2(上海)

    可用区

    选择 CLB 实例所在可用区。各地域支持的可用区可调用接口 DescribeZones 查询。

    • 地域支持主备可用区时,CLB 实例部署在两个可用区。
    • 正常情况下,默认启用主可用区,备可用区不承载流量。
    • 主可用区故障时,系统自动切换到备可用区继续提供 CLB 服务。
    • 地域不支持主备可用区时,CLB 实例只能部署在一个可用区,默认为主可用区。
    • 主:可用区 A
    • 备:可用区 B

    名称

    输入 CLB 实例的名称。

    clb-1

    网络配置

    IP版本

    选择 CLB 实例的 IP 版本。

    • IPv4:仅支持 IPv4。
    • 双栈:支持 IPv4 和 IPv6。

    IPv4

    网络类型

    选择CLB实例的网络类型,具体区别请参照产品类型与规格

    • 公网:公网 CLB,即创建 CLB 时同步申请一个公网 IP 并绑定,二者的生命周期保持一致。
    • 私网:私网 CLB,若需要提供公网服务,可自行绑定公网 IP。

    说明
    IP版本为双栈时仅支持私网,默认支持 IPv4 和 IPv6 私网访问。

    • 如需访问 IPv4 公网,请在创建 CLB 实例时配置参数公网访问,或者在 CLB 实例创建成功后为其绑定公网 IP
    • 如需访问 IPv6 公网,请为 CLB 实例开通 IPv6 公网带宽

    公网

    私有网络

    选择 CLB 实例所属的私有网络。

    VPC01

    子网

    选择 CLB实例所属的子网。

    subnet01

    IPv4地址

    设置CLB实例IPv4地址,创建后不支持修改。

    • 自定分配IP:系统自动从所选子网中分配一个空闲的IPv4地址。
    • 手动分配IP:手动从所选子网中分配一个空闲的IPv4地址。不支持批量创建CLB实例。

    自动分配IP

    IPv6地址

    当IP版本为双栈时,设置CLB实例IPv6地址。

    • 自定分配IP:系统自动从所选子网中分配一个空闲的IPv6地址。
    • 手动分配IP:手动从所选子网中分配一个空闲的IPv6地址。不支持批量创建CLB实例。

    自动分配IP

    放通后端安全组

    是否开启放通后端安全组的功能。开启后,后端服务器组(仅服务器类型)中后端服务器的安全组不再校验CLB的流量,默认放通。
    说明
    CLB支持放通后端安全组的功能正在邀测中,如需试用,请联系客户经理。

    开启

    公网访问

    仅CLB网络类型为私网时,有此参数,可按需为私网CLB实例绑定已有的公网IP。

    勾选,eip-h1wgehsn23s****

    绑定公网IP(仅CLB网络类型为公网时,有此参数)

    公网IP

    安全防护

    当公网 CLB 实例计费为按量计费时,可选择公网IP的安全防护类型。

    • 默认:默认防护类型的公网IP,该类型公网IP具备 基础DDoS防护 能力。
    • 增强防护:增强防护类型的公网IP,该类型公网IP不仅具备基础DDoS防护能力,还支持低时延、高可达的Tbps级别的 DDoS原生防护(企业版) 能力。请为该公网IP选择安全防护包。如没有安全防护包可以选择,请单击参数框右侧的创建安全防护包创建新的安全防护包,详细参数介绍可参见购买原生防护(企业版)实例

    说明

    • 增强防护类型的公网IP正在邀测中,暂仅支持完成 企业认证 的账号申请试用,如需试用,请联系客户经理。
    • 仅当计费类型为按量计费时,配置此参数。

    默认

    线路类型

    公网IP的线路类型,默认仅支持BGP (多线)。

    BGP (多线)

    计费方式

    当CLB实例计费为按量计费时,可选择公网IP的计费方式。

    • 按带宽上限计费:即指定带宽上限后,将按照使用时长计费,与实际流量无关。
    • 按实际流量计费:即指定带宽上限后,将按照实际使用的出云方向的公网流量计费,与使用时长无关。

    说明
    当公网CLB实例的计费为包年包月时,其公网IP的计费方式为包年包月。

    带宽上限

    公网IP的带宽上限,单位为Mbps。

    • 包年包月:取值范围为1~500Mbps。
    • 按带宽上限计费:取值范围为1~500Mbps。
    • 按实际流量计费:取值范围为1~200Mbps。

    20Mbps

    共享带宽包

    当公网IP为按带宽上限计费或按实际流量计费时,按需勾选加入 共享带宽包

    • 若不勾选,后续也可按需 加入共享带宽包
    • 若勾选,则可选择当前地域下、与公网IP安全防护相同的IPv4共享带宽包。

    选择共享带宽包后,上述设置的公网IP计费方式的计费项流量费或带宽费和带宽上限失效,该公网IP共用共享带宽包的带宽。若后续从共享带宽包移出,则恢复上述设置的计费方式的计费项和带宽上限。

    实例规格

    规格

    不同规格对应不同的最大连接数、新建连接数、每秒查询数、带宽,您可以根据不同的业务场景对性能的要求,选择适合的规格,规格说明请参考产品类型与规格

    小型I

    更多信息

    购买时长

    当CLB计费类型为包年包月时,输入CLB实例的购买时长。

    1个月

    自动续费

    当CLB计费类型为包年包月时,选择是否开启自动续费,默认不开启。勾选自动续费后,默认续费周期为1个月,账户余额充足的情况下,可自动续费无限次。

    不勾选

    实例数量

    输入待创建CLB实例的数量。
    说明
    CLB实例为增强防护公网类型时,单次最多可创建的CLB实例数量不能超过已关联安全防护包剩余可添加的公网IP数量。

    2个

    有序后缀

    创建多个CLB实例时,可为CLB实例名称后添加数字后缀。起始数字默认为1,表示为CLB实例名称后依次添加后缀-1、-2。

    勾选,1

    所属项目

    选择CLB实例所属的项目。公网CLB实例加入项目后,同步创建的公网IP也会加入相同项目。更多信息请参见项目管理

    default

    标签

    标签由一个键值对组成,用于资源的分类和搜索。更多关于标签的介绍请参见标签管理
    单击添加图标,输入标签键和标签值,为CLB实例添加标签。

    • 标签键:clb-key
    • 标签值:clb-test
  2. 创建完成后,进入负载均衡详情页,单击私有网络项进入所属的 VPC 进行安全组配置。

  3. 在对应私有网络详情页,在页面下方的私有网络资源栏选择安全组,进入后选择 Default(默认安全组),在访问规则入向规则使用 ALL 协议类型并配置源地址(CIDR) 为:本机使用网络在本地区的出口 IP、100.64.0.0/10,前者用于本机连接开发机,若配置错误则会出现无法连接的问题。完成两项规则的添加后即可在网络层面正常访问开发机。

  4. 根据负载均衡的公网 IP 生成本地登录时的 SSH 公钥和私钥,示例如下:

    ssh-keygen -t rsa -b 4096 -C "root@负载均衡公网ip" 
    
  5. 完成后您可以使用 ls -al 查看创建结果,分为公钥和私钥 。同时您可以使用 cat 命令来查看密钥内容,并将其保存至文档中以便访问使用。

  • id_rsa_las_test :私钥
  • id_rsa_las_test.pub :公钥

创建开发机

  1. 登录 LAS控制台 > 数据处理 > 开发机,进入开发机页面,选择创建开发机。
  1. 创建开发机配置 (SSH 公钥配置项为前置准备中 **id_rsa_las_test.pub (公钥)**里的内容),配置详情参考创建开发机
  2. 完成创建后即可在本机登录并访问开发机。您可以使用多种方式登录,详情参见远程连接开发机
ssh -i ~/xxx/${ssh私钥名称} -p ${开发机调用端口} root@${负载均衡公网IP}
# 「~/xxx/${ssh私钥名称}」 为您存储 SSH 私钥的路径

步骤四:镜像构建

登录开发机

您可以使用多种方式登录,详情参见远程连接开发机

ssh -i ~/xxx/${ssh私钥名称} -p ${开发机调用端口} root@${负载均衡公网IP}
# 「~/xxx/${ssh私钥名称}」 为您存储 SSH 私钥的路径

任务开发

用户根据实际情况自定义任务。
示例:

保存镜像

  1. 进入开发机页面,点击操作列保存镜像。

Image

  1. 创建保存镜像信息。
  1. 创建完成后,可以进入 LAS 控制台 > 镜像管理 > 自定义镜像查看镜像构建进度。

步骤五:任务提交执行

创建任务

  1. 登录 LAS 控制台 > 数据处理 > 任务管理 > 创建任务,使用已保存的镜像。

注意

环境变量设置: LAS_TOS_ACCESS_KEY和ACCESS_KEY 可设置相同值。

其他环境变量请参考:

export TOS_ENDPOINT="https://tos-cn-beijing.volces.com"
# TOS专用AK SK
export LAS_TOS_ACCESS_KEY="AK=="
export LAS_TOS_SECRET_KEY="Wm=="
export ACCESS_KEY="AK=="
export SECRET_KEY="Wm=="
export DAFT_RUNNER=ray
export DAFT_FLOTILLA=0
# 模型挂载路径
export MODEL_PATH="/opt/las/models"
  1. 完成创建。

启动任务

登录LAS 控制台 > 数据处理 > 任务管理 > 操作列 > 执行。

注意

可选择公共队列或者资源管理 > 队列管理 > 计算队列中创建的独占队列.

启动时的资源按照代码中的配置来计算,最小:WorkCPU 3, WorkMemory:24 。