LAS(Lake AI Service)是火山引擎面向大模型时代推出的AI数据湖服务,孵化于字节跳动大模型训练场景,专注于文本、图像、音视频等多模态数据的统一存储、管理与高效处理。LAS 通过统一元数据管理、深度优化的Lance、Iceberg 等湖格式以及内置数百个多模态 AI 算子(如跨模态内容理解、数据增强),实现 PB 级非结构化数据的存储优化、版本控制和兼容 Ray、Daft、Spark 等分布式框架的 GPU/CPU 异构计算。LAS 无缝对接模型训练、微调及推理链路,支持企业构建从数据入湖、智能数据工程到模型应用的全流程闭环,解决数据冗余、血缘缺失及处理复杂等挑战,助力大模型时代数据竞争力提升。
说明
说明
仅主账号和IAM用户可以拥有密钥,角色无法拥有密钥。密钥的最佳实践请参考API密钥最佳实践文档。
用户需要获取当前身份的密钥,详细操作请参考:使用指南。
企业用户通过主账号购置云资源,并按需向不同 IAM 用户分配访问权限。员工可使用 IAM 用户登录控制台或调用 API 访问资源,既能以最小合理权限实现团队协作,又能有效保障云资源安全。
对于需登录控制台并使用其功能的 IAM 用户,需先在访问控制中为子用户创建并授予相应权限。
说明
为确保您使用 LAS 产品时,IAM 子账号能正常访问所依赖的火山引擎其他服务,避免因权限问题受限,建议您进行一次批量授权(一次操作即可,推荐使用)。
说明
产品 | 权限 | 说明 |
|---|---|---|
AI 数据湖服务 LAS | LASFullAccess | AI 数据湖服务 LAS 管理员权限,可以使用 LAS 控制台进行数据管理和数据预处理 |
对象存储 TOS | TOSFullAccess | 对象存储(TOS)管理员权限,用于访问 TOS中的数据 |
负载均衡 | CLBFullAccess | 负载均衡(CLB)管理员权限,用于创建 CLB 登录开发机 |
VPC | VPCFullAccess | 私有网络(VPC)管理员权限,用于创建 VPC |
镜像仓库 | CRFullAccess | 镜像仓库(CR)管理员权限,用于镜像构建 |
本实践基本操作流程如下所示:
进入 LAS 控制台,首次开通将呈现开通界面,选择区域后一键开通产品服务。
说明
说明
LAS 提供多种资源类型,包括:
分类 | 配置项 | 示例 | 说明 |
|---|---|---|---|
资源信息 | 资源名称 | LAS-DataLake |
|
地域 | 华北2(北京) | 支持:华北 2(北京)、华东 2(上海),页面上展示当前开通区域 | |
部署方式 | 单可用区 | 支持单可用区 说明 不同可用区下包含不同资源。 | |
可用区 | 可用区A | 选择可用区(A、C、D) | |
付费信息 | 付费方式 | 包年包月 | 支持按量付费、包年包月 |
付费时长 | 1个月 | 按月:支持 1-6 个月;按年:支持 1-3 年 | |
自动续费 | 建议开启,避免因资源到期影响业务,续费周期为 每月,系统自动从余额扣费,无需手动支付 | ||
队列资源配置 | 队列类型 | CPU队列 | 支持 CPU、GPU 两种资源类型 |
CPU机型 | 标准型1:4 |
| |
资源规格 | 32 CU | 选择资源规格 |
开发机是 LAS 为算法开发者提供的专业开发环境,预先继承了丰富的开源镜像,减少环境搭建的成本,在资源支持层面,开发机提供灵活的计算资源配置,涵盖 CPU 与 GPU,能够满足不同复杂度任务的算力需求。同时,它支持 TOS、vePFS 等存储系统的挂载,为数据存储与读取提供稳定支撑。
登录创建负载均衡。
参数 | 说明 | 取值示例 | |
|---|---|---|---|
基本信息 | |||
计费类型 | 选择 CLB 实例的计费类型。
| 包年包月 | |
地域 | 选择CLB实例所在地域 | 华东 2(上海) | |
可用区 | 选择 CLB 实例所在可用区。各地域支持的可用区可调用接口 DescribeZones 查询。
|
| |
名称 | 输入 CLB 实例的名称。 | clb-1 | |
网络配置 | |||
IP版本 | 选择 CLB 实例的 IP 版本。
| IPv4 | |
网络类型 | 选择CLB实例的网络类型,具体区别请参照产品类型与规格 。
说明
| 公网 | |
私有网络 | 选择 CLB 实例所属的私有网络。 | VPC01 | |
子网 | 选择 CLB实例所属的子网。 | subnet01 | |
IPv4地址 | 设置CLB实例IPv4地址,创建后不支持修改。
| 自动分配IP | |
IPv6地址 | 当IP版本为双栈时,设置CLB实例IPv6地址。
| 自动分配IP | |
放通后端安全组 | 是否开启放通后端安全组的功能。开启后,后端服务器组(仅服务器类型)中后端服务器的安全组不再校验CLB的流量,默认放通。 | 开启 | |
公网访问 | 仅CLB网络类型为私网时,有此参数,可按需为私网CLB实例绑定已有的公网IP。 | 勾选,eip-h1wgehsn23s**** | |
绑定公网IP(仅CLB网络类型为公网时,有此参数) | |||
公网IP | 安全防护 | 当公网 CLB 实例计费为按量计费时,可选择公网IP的安全防护类型。
说明
| 默认 |
线路类型 | 公网IP的线路类型,默认仅支持BGP (多线)。 | BGP (多线) | |
计费方式 | 当CLB实例计费为按量计费时,可选择公网IP的计费方式。
说明 | ||
带宽上限 | 公网IP的带宽上限,单位为Mbps。
| 20Mbps | |
共享带宽包 | 当公网IP为按带宽上限计费或按实际流量计费时,按需勾选加入 共享带宽包。
选择共享带宽包后,上述设置的公网IP计费方式的计费项流量费或带宽费和带宽上限失效,该公网IP共用共享带宽包的带宽。若后续从共享带宽包移出,则恢复上述设置的计费方式的计费项和带宽上限。 | 否 | |
实例规格 | |||
规格 | 不同规格对应不同的最大连接数、新建连接数、每秒查询数、带宽,您可以根据不同的业务场景对性能的要求,选择适合的规格,规格说明请参考产品类型与规格 。 | 小型I | |
更多信息 | |||
购买时长 | 当CLB计费类型为包年包月时,输入CLB实例的购买时长。 | 1个月 | |
自动续费 | 当CLB计费类型为包年包月时,选择是否开启自动续费,默认不开启。勾选自动续费后,默认续费周期为1个月,账户余额充足的情况下,可自动续费无限次。 | 不勾选 | |
实例数量 | 输入待创建CLB实例的数量。 | 2个 | |
有序后缀 | 创建多个CLB实例时,可为CLB实例名称后添加数字后缀。起始数字默认为1,表示为CLB实例名称后依次添加后缀-1、-2。 | 勾选,1 | |
所属项目 | 选择CLB实例所属的项目。公网CLB实例加入项目后,同步创建的公网IP也会加入相同项目。更多信息请参见项目管理。 | default | |
标签 | 标签由一个键值对组成,用于资源的分类和搜索。更多关于标签的介绍请参见标签管理。 |
| |
创建完成后,进入负载均衡详情页,单击私有网络项进入所属的 VPC 进行安全组配置。
在对应私有网络详情页,在页面下方的私有网络资源栏选择安全组,进入后选择 Default(默认安全组),在访问规则中入向规则使用 ALL 协议类型并配置源地址(CIDR) 为:本机使用网络在本地区的出口 IP、100.64.0.0/10,前者用于本机连接开发机,若配置错误则会出现无法连接的问题。完成两项规则的添加后即可在网络层面正常访问开发机。
根据负载均衡的公网 IP 生成本地登录时的 SSH 公钥和私钥,示例如下:
ssh-keygen -t rsa -b 4096 -C "root@负载均衡公网ip"
完成后您可以使用 ls -al 查看创建结果,分为公钥和私钥 。同时您可以使用 cat 命令来查看密钥内容,并将其保存至文档中以便访问使用。
id_rsa_las_test :私钥id_rsa_las_test.pub :公钥 **id_rsa_las_test.pub (公钥)**里的内容),配置详情参考创建开发机。ssh -i ~/xxx/${ssh私钥名称} -p ${开发机调用端口} root@${负载均衡公网IP} # 「~/xxx/${ssh私钥名称}」 为您存储 SSH 私钥的路径
您可以使用多种方式登录,详情参见远程连接开发机。
ssh -i ~/xxx/${ssh私钥名称} -p ${开发机调用端口} root@${负载均衡公网IP} # 「~/xxx/${ssh私钥名称}」 为您存储 SSH 私钥的路径
用户根据实际情况自定义任务。
示例:
注意
环境变量设置: LAS_TOS_ACCESS_KEY和ACCESS_KEY 可设置相同值。
其他环境变量请参考:
export TOS_ENDPOINT="https://tos-cn-beijing.volces.com" # TOS专用AK SK export LAS_TOS_ACCESS_KEY="AK==" export LAS_TOS_SECRET_KEY="Wm==" export ACCESS_KEY="AK==" export SECRET_KEY="Wm==" export DAFT_RUNNER=ray export DAFT_FLOTILLA=0 # 模型挂载路径 export MODEL_PATH="/opt/las/models"
登录LAS 控制台 > 数据处理 > 任务管理 > 操作列 > 执行。
注意
可选择公共队列或者资源管理 > 队列管理 > 计算队列中创建的独占队列.
启动时的资源按照代码中的配置来计算,最小:WorkCPU 3, WorkMemory:24 。