You need to enable JavaScript to run this app.
导航
快速入门-管理员版
最近更新时间:2025.06.24 18:58:31首次发布时间:2025.06.24 18:58:31
我的收藏
有用
有用
无用
无用

在使用机器学习平台之前需要完成火山引擎账号的注册、实名认证以及开通相关服务。

0.注册账号及实名认证
  1. 访问注册页面完成注册,详细指导见文档
  2. 访问实名认证页面,进行企业实名认证或者变更为企业认证(本产品公测暂只面向企业认证用户),详细指导见文档

1.开通产品及配置

网络配置

私有网络 VPC

打开 VPC 控制台,创建/复用 私有网络和子网。

  • 地域-可用区 与算力资源相同。
  • 网段按需规划,在 专线/CEN 等场景下避免网段冲突。
  • 请按需调大子网段的可用IP数量(建议不少于GPU卡数),例如 CIDR = 20 可用IP数 = 4093 或以上。

安全组

打开 私有网络控制台-安全组,在前述私有网络下,对默认安全组「配置规则」或「创建安全组」,需要保证以下联通性。

访问规则

策略

协议类型

端口范围

目的地地址

描述

出方向

允许

按需

按需

按需

按需选择需要放开的流量

入方向

允许

2222

开发机 SSH 登录

10000

开发机/ 自定义任务 WebIDE

12222

自定义训练框架通信

3389

rdp 远程桌面

80

http 默认端口

TCP

80

apig-sg-xx

限定网段访问或者只容许 API 网关的访问

443

https 默认端口

5082

按需,CloudFS 依赖

5092

按需,CloudFS 依赖

ALL

本安全组

组内互通

公网IP(按需)

保障公网访问体验,不使用平台共享网络,使用专享公网网络。访问公网及公网登录依赖。

打开 私有网络控制台-公网IP,【申请公网IP】,地域-可用区 与算力资源相同,线路规格按需配置。

公网NAT网关(按需)

若需要保障公网访问体验,使用专享公网网络,不使用平台共享网络则需要,使用SNAT功能访问公网 及公网登录依赖。

  1. 打开 私有网络控制台-公网NAT网关,【创建公网NAT网关】,地域-可用区与算力资源相同,选择前述复用/创建的私有网络和子网
  2. 为公网NAT网关【配置公网IP】。
  3. 为公网NAT网关【配置SNAT规则】-【创建SNAT规则】。
  4. 打开 私有网络控制台-路由表,添加路由条目,将公网NAT网关添加到路由表(私有网络下的第一个公网NAT网关会被自动添加到路由表)

API网关 (按需)

若需要保障公网访问体验,使用专享公网网络,不使用平台共享网络则需要。

访问API网关,网络类型选公网,其他配置按需选择。

镜像仓库配置

打开 镜像仓库控制台,根据提示开通火山引擎镜像仓库服务。

  1. 创建标准版实例,地域 与算力资源相同,等待实例状态变为【运行中】(可能需要 5~10 分钟)。
  2. 进入实例-命名空间-创建命名空间,创建一个命名空间用于开发机镜像归档。
  3. 进入实例-访问控制-添加 VPC,选择前述复用/创建 的私有网络。

使用已注册的火山引擎主账号登录机器学习平台,进入平台会自动弹出跨服务授权的页面,提交表单后即可完成对象存储、镜像仓库等依赖服务的跨服务授权。
到此所有需要的服务均已开通,下一步则由主账号为普通开发者创建对应的子用户账号(可选)。

存储配置

对象存储

打开 对象存储控制台,根据提示开通火山引擎对象存储服务。

文件存储 vePFS

打开 文件存储 vePFS 控制台,实例列表-创建文件系统(可能需要 10~20 分钟)以及实例的挂载服务

  1. 地域-可用区 与算力资源相同。
  2. 私有网络和子网 选择前述复用/创建 的私有网络和子网。

vePFS支持通过fileset设置子路径,提供更细粒度的数据权限控制。

机器学习全局配置

使用已注册的火山引擎主账号登录,打开 机器学习平台控制台-全局配置,首次进入弹出跨服务授权页面,完成对象存储、镜像仓库等依赖服务的跨服务授权。

VPC

为了连通用户和平台之间的私网环境、挂载 vePFS、NAS 等文件系统等操作,需要进行私网配置。根据 CPU / GPU 算力资源、vePFS 资源所在的可用区,配置同可用区的子网。支持关联多个子网,直接关联默认安全组。
说明
绑定 VPC 后,公网类型可以选择两种,专享网络和共享网络,专享网络需要绑定自己购买的 NAT 网关、 EIP 、API 网关,可获得更好的公网体验,建议生产环境使用。
共享网络为平台所有租户共享带宽,目前可免费使用公网,测试环境可以使用,正式生成环境不建议使用。
Image

说明

完成上述所有配置后,请联系火山引擎机器学习平台产品解决方案对接人,为您 后台校验配置。同时请继续进行后续配置。

镜像仓库

若使用镜像仓库标准版实例,则需要在机器学习平台进行全局配置,完成标准版实例的授权,并指定镜像归档位置。

vePFS

若使用文件存储 vePFS,则需要在机器学习平台进行全局配置,完成绑定实例、添加挂载权限。

  1. 绑定实例:直接通过机器学习平台绑定vePFS实例,预期需要等待10~20分钟完成绑定。
  1. 添加挂载权限:支持按 授权目录 × 权限(读写/只读/无)× 用户 的三元组设置,授权子目录需要在vepfs控制台设置好fileset

采用vepfs+机器学习平台方案,在代金券到期/vepfs不续费场景删除vePFS时需要先在机器学习平台-全局配置-vepfs中解绑vepfs实例。
若在机器学习平台挂载了两个vePFS实例,请注意以下事项:

  • 通过CLI(命令行)和SDK挂载vePFS时,需要指定一个vePFS实例ID,否则无法提交挂载vePFS实例的负载任务。更多请参考命令行工具
  • 使用vePFS存储TensorBoard日志同理,也需要指定实例ID。3.产品配置

2.权限管理

IAM (Identity and Access Management,访问控制,缩写为IAM)是火山引擎为客户提供的一套权限管理系统,用于控制不同身份对云资源的访问权限。

如果您有多人如团队协作的场景下使用本产品,避免高危操作导致业务损失,建议进行权限拆分和隔离,可由主账号根据团队角色创建子账号并为其分配适当的权限。普通开发者使用有限权限的子账号登录平台进行开发。平台预置了若干常用的策略方便主账号快速地创建子账号并分配权限。
主要步骤如下:

  1. 以主账号登录并创建子账号。
  2. 为管理员或有管理职责的开发人员创建子账号,并赋予管理员权限,用来完整地管理平台的所有功能以及权限。
  3. 登录主账号为团队内每个算法工程师创建对应的子账号,并赋予适当的权限。

创建子账号

  1. 使用主账号登录火山引擎控制台
  2. 单击右上角账号名下拉框中的【访问控制】进入对应页面。
  3. 在左侧的导航栏依次单击【用户】-【新建用户】进入基本信息设置页面。
  4. 单击【通过用户名创建】并填写该子账号的名称。
  5. 如果需要访问控制台则打开 控制台登录 的开关并设置访问密码。
  6. 建议打开 自动生成密钥 的开关直接生成子账号的 AK / SK,便于对应子账号后续通过 AK / SK 通过API或者命令行使用对象存储、机器学习平台等火山引擎产品。

赋予管理员子账号权限

使用主账号在访问控制控制台上,为赋予管理员子账号添加权限,便于子账号使用人管理平台的能力。下面是与机器学习平台使用相关的常见策略,可以根据业务实际使用的情况,进行选择,每个策略的具体含义可在访问控制权限策略 查询。

权限名称

必选 / 可选

适用场景描述

MLPlatformAdminAccess

必选

机器学习平台全功能管理,包括项目创建、资源调度、任务监控等核心操作。

IAMFullAccess

必选

访问控制全功能管理,用于创建子账号、分配权限策略、管理用户组等权限配置操作。

TOSFullAccess

必选

对象存储全功能管理,用于存储训练数据、模型文件、日志文件等海量数据存储。

BillingCenterFullAccess

可选

费用中心管理,支持账单查询、费用分析、合同管理、发票申请等财务相关操作。

AccessKeyFullAccess

可选

主账号下所有 AccessKey 的创建、删除、查看等管理操作,如有火山引擎 OpenAPI 调用的需求,需要配置。

VPCFullAccess

可选

私有网络全功能配置,包括 VPC 创建、子网划分、路由表管理、NAT 网关等网络架构。

APIGFullAccess

可选

API 网关全功能管理,支持创建 API 接口、配置公网域名、流量监控等网络服务。

若需要保障公网访问体验,使用专享公网网络,不使用平台共享网络则需要。

CRFullAccess

可选

镜像仓库全功能管理,支持镜像 / 模型工件的上传、下载、版本管理等操作。

TLSFullAccess

可选

日志服务全功能管理,支持采集、存储、查询、分析资源操作日志及监控指标。

VMPFullAccess

可选

托管 Prometheus 服务全功能管理,支持监控指标采集、告警规则配置等。

CFSFullAccess

可选

大数据文件存储全功能管理,支持创建文件系统、权限配置、数据读写等操作。

vePFSFullAccess

可选

文件存储全功能管理,支持高性能文件系统创建、容量管理、协议配置等。

如团队中不止一位管理员,可重复上面操作为每一位管理员添加权限,或者创建管理员权限的用户组,授予上面权限,实现按组管理和授权。

为算法工程师创建子账号及权限

管理员子账号授权成功,可以由主账号或管理员账号根据团队中算法工程师创建子账号,并在访问控制控制台上赋予对应子账号下面的权限。
MLPlatformDeveloperAccess:机器学习平台(veMLP)算法开发人员权限。授予该策略的子用户将拥有开发机、自定义任务、推理服务和部署的读写权限(仅限自己创建的);也将授予镜像、实验管理等模块的 Get、List 等接口权限。

  • 若您组织中算法工程师或管理员,在不同组或团队中,需要的权限不同,可使用【访问控制】产品的【用户组】的功能,实现按组分配权限,参考用户组
  • 更多更详细权限管理指导,请参见 权限管理(new)权限管理

3.资源配置

说明

上述配置全部完成并校验无误后,联系机器学习平台产品解决方案对接人为您扩容计算节点资源,并添加资源组下单 Quota。根据算力规模不同,所需的时间不尽相同,请耐心等待通知再进行后续操作。

开通Quota

您获得资源开通成功通知,即可通过资源组创建资源,开始AI开发工作。

创建资源组

主账号登录机器学习平台,选择左侧导航的【资源组管理】-【资源组】,可以新建资源组。如果非主账号,需要额外具备billFullAccess权限才可以创建资源组。

  1. 选择计算配置,例如在华北可用区B,选择128台A100包月预付费的高性能计算GPU型,100GiB SSD 云盘,配置如下所示:
  1. 其次进行存储&网络配置,直接选择全局配置中已经绑定的私有网络、存储配置。如果没有需要跳转全局配置中先完成前置配置操作。可以进行网络联通性诊断,校验VPC、APIG、镜像等网络配置,保障网络访问打通。
  1. 最后确认配置信息并提交订单。可以确认配置信息,以及选择购买时长、是否开启自动续费,确认无误勾选产品协议后提交订单。

创建队列

主账号可以将资源组资源按照业务需求、项目要求进一步按照队列进行拆分。可以在【资源组】列表页的资源组的操作中【创建队列】,也可以在左侧导航的【队列】中新建队列。

使用开发机、自定义任务、在线服务选择【实例规格】时请留意,A100/A800等高性能GPU存在两种规格:

  • 高性能计算GPU型:例如A100,ml.hpcpni2.28xlarge,支持RDMA网络通信,高性能。通常整机多实例计算选择此规格。
  • GPU型:例如A100,ml.pni2.28xlarge,支持TCP网络通信,普通性能,通常单卡单机选择此规格。

自此您账号下团队算法工程师可以使用机器学习平台以及火山引擎相关产品,来进行模型开放、训练、推理等工作。

4.资源清理

如资源使用完毕,请及时退订资源,避免不必要的费用开销。
请注意,您在机器学习平台全局配置中对各个关联云产品进行取消授权,并前往各个云产品的控制台删除相关实例。