说明
v2.0 功能简述:
- 【需要开白】vePFS所关联的VPC与全局配置绑定的VPC可以不一致,并且支持绑定多个VPC网络
- 若您的资源有多VPC环境隔离的诉求,可以通过在全局配置绑定多个VPC网络,并且在下单时关联到对应的资源组就可以实现机器和负载的网络隔离
- 若您有多vePFS实例的诉求,且vePFS实例间关联的VPC不一致,可以在全局配置创建两个vePFS挂载服务实现
- 支持在资源组动态挂载vePFS实例和解绑vePFS,即购买机器时可以决定是否挂载vePFS实例。
- 平台将根据客户的实际机器数量,提供一定数量的热备资源,用于在故障发生时实现分钟级快速恢复。相关保障能力以最终商务合同约定为准。
如何使用
全局配置完成所有依赖服务的授权和绑定,在各个负载完成配置。
全局配置
说明
新功能:
- vePFS的VPC不再与全局配置的VPC强关联
- 支持配置和绑定多VPC
- 支持绑定多个vePFS挂载服务(vePFS实例所属VPC不一致)
登录机器学习平台控制台,点击【全局配置】进入对应页面
选择 VPC 模块,点击【配置私网】
请注意,在绑定VPC时,尽量选择网段较大的VPC,尽量保证可用IP数量满足您的业务场景。
建议私有网络的网段大小在/8~/16位网络掩码之间,可用区子网网段掩码小于等于 /20,以满足后续在其他可用区创建子网,同时避免子网网段过小导致IP耗尽,比如:
vpc CIDR:172.24.0.0/16 可用IPv4数量 65533
- 私有网络:
- 选择您需要授权给MLP的私有网络和子网
- 子网支持多选,选择的子网可用区须与机器资源所在的可用区保持一致
- 公网:(若没有此部分设置,请联系火山oncall开白)
- 允许公网访问时,开发机可以在公网环境登录和访问,也需要配置公网登录所需的 NAT网关和公网 IP
- 禁止公网访问时,开发机仅可以通过私网登录和访问(WebIDE和SSH远程访问)
机器学习平台的每个工作负载容器会消耗1个 ENI 和 1个 VPC 子网IP, 需要的目标数量,要考虑如下 3 部分之和:
* sum (创建的开发机数量),开机和关机状态的开发机都需要
* sum(Running 状态的自定义任务实例数 ),例如:2 个 12 机 x 卡训练任务,需要 24 个
* sum (Running 状态的推理服务实例数),例如:2 个 30 机 x 卡训练任务,需要 60 个


- 【可选】选择 vePFS 模块,点击【绑定vePFS】
- 请选择需要使用的vePFS实例
- 若您已绑定过vePFS实例1,要绑定的vePFS实例2所关联的VPC与vePFS实例1所关联的VPC不一致,则会新建一个挂载服务;若VPC一致,则将会在该挂载服务下新增一个vePFS挂载实例
- 绑定vePFS实例后,您可以对该实例做挂载权限的配置
- 例如设置 "/"根目录 仅用户组xx1有读权限,"/mlptest"目录用户组xx2有读权限
- 当挂载服务下没有绑定的vePFS挂载实例时,将会自动删除且不可恢复]


资源组
说明
新功能:
- 支持在资源组维度配置 私有网络VPC、子网和安全组
- 支持按照资源组维度绑定vePFS实例
- 支持给负载和存储配置不同的网络(负载指开发机、自定义任务和在线服务;存储指vePFS和NAS)
创建资源组需要完成以下的配置项:
步骤 | 参数名称 | 说明 | Demo |
---|
计算配置 | 名称 | - 必填项
- 支持1~200可见字符,且只包含大小写字母、中文、数字、中划线和下划线
| 

|
描述 | |
计费类型 | - 必填项
- 预付费:按月购买及续费,适合中长期稳定业务
- 后付费:先使用后付费,适合短期弹性需求,使用资源时收费,创建资源组不收费
|
地域 | - 必填项
- 不同地区间内网相互隔离,建议选择距离您业务更近的区域,可降低网络延时、提高访问速度。
支持 华北2(北京)、、华东2(上海)、华南1(广州)
华北3(北京)和亚太东南(柔佛)需要联系火山引擎客服开白
|
可用区 | - 必填项
- 可用区是指同一地域中电力、网络隔离的物理地域。在同一私有网络内,可用区之间内网互通。
资源所属可用区需要和负载网络/存储网络所属的可用区保持一致
|
计算规格 | - 必填项
- 支持选择 纯CPU规格、GPU规格和RDMA网络的高性能GPU规格
- 若遇到资源不足时,请联系火山引擎客服同学增加示例配额
|
云盘 | - 选填项
- 若需要使用开发机,则必须购买一定容量的云盘规格。单台开发机至少需要20GiB
云盘将作为持久化存储挂载在根目录/,该目录下的数据在关机或重启后均会被保留
- 支持选择极速性SSD PL0和极速性SSD FlexPL 两种规格,后者单盘最大IOPS和最大吞吐量较优。若您在使用开发机时,有更高的吞吐诉求,可选择FlexPL的规格。更多参数请查看文档
|
存储和网络配置 | 负载网络配置 | - 必填项
- 创建机器学习平台的负载时(开发机、自定义任务和在线服务),需要用到私有网络VPC、子网和安全组
- 所选的VPC必须要在全局配置完成绑定,所选子网的可用区需要和实例资源所在的可用区保持一致
| 
|
存储网络配置 | - 必填项
- 创建机器学习平台的负载时(开发机、自定义任务和在线服务),需要用到私有网络VPC、子网和安全组
- 所选的VPC必须要在全局配置完成绑定,所选子网的可用区需要和实例资源所在的可用区保持一致
|
vePFS配置 | - 文件存储 vePFS 是火山引擎推出的一种高吞吐、低延时、可扩展的并行文件系统服务,满足高性能计算场景下高吞吐低延时的数据读写需求。更多查看文档
- 请确保已完成全局配置vePFS实例的绑定
- 绑定vePFS实例后,可以在训练/服务/开发机上挂载vePFS共享文件系统
- vePFS实例所在的VPC网络和存储网络须保持一致,否则无法创建
在购买资源组成功后,将会对本次购买的机器挂载vePFS实例。您可以在资源组列表页面查看到挂载进度。
|
SFCS配置 | - 将GPU节点上的本地盘作为数据缓存服务,具有高性能、易使用和多兼容的特点
该功能需要开白
|
确认订单 | - | - 选择购买时长,预付费支持7天、1个月、1年等时长
- 勾选协议
| 
|
FAQ
怎么感知vePFS绑定的进度?
- 若您需要在机器学习平台使用文件系统vePFS,请在创建资源组时选择全局配置绑定好的vePFS实例。
- vePFS实例会在资源组下单后,异步绑定。您可以在资源组列表页【vePFS实例】查看绑定进度
资源组绑定的负载网络是否可以变更?
- 支持在创建资源组后变更负载网络配置,支持更换VPC、子网和安全组
- 若您在机器学习平台会使用 NAT网关/网际快车/镜像仓库/负载均衡 等产品,也需要在更换VPC时同步更新
- 更换VPC后,存量的负载不会变更;只有新提交的负载会使用新VPC
- 存量开发机更换VPC不会生效
- 若您添加了新的安全组,不会对存量的开发机生效;若需要对存量开发机生效,请通过更改存量绑定安全组的出入向配置实现