在使用机器学习平台之前需要完成火山引擎账号的注册、实名认证以及开通相关服务。
打开 VPC 控制台,创建/复用 私有网络和子网。
打开 私有网络控制台-安全组,在前述私有网络下,对默认安全组「配置规则」或「创建安全组」,需要保证以下联通性。
访问规则 | 策略 | 协议类型 | 端口范围 | 目的地地址 | 描述 |
---|---|---|---|---|---|
出方向 | 允许 | 按需 | 按需 | 按需 | 按需选择需要放开的流量 |
入方向 | 允许 | 2222 | 开发机 SSH 登录 | ||
10000 | 开发机/ 自定义任务 WebIDE | ||||
12222 | 自定义训练框架通信 | ||||
3389 | rdp 远程桌面 | ||||
80 | http 默认端口 | ||||
TCP | 80 | apig-sg-xx | 限定网段访问或者只容许 API 网关的访问 | ||
443 | https 默认端口 | ||||
5082 | 按需,CloudFS 依赖 | ||||
5092 | 按需,CloudFS 依赖 | ||||
ALL | 本安全组 | 组内互通 |
保障公网访问体验,不使用平台共享网络,使用专享公网网络。访问公网及公网登录依赖。
打开 私有网络控制台-公网IP,【申请公网IP】,地域-可用区 与算力资源相同,线路规格按需配置。
若需要保障公网访问体验,使用专享公网网络,不使用平台共享网络则需要,使用SNAT功能访问公网 及公网登录依赖。
若需要保障公网访问体验,使用专享公网网络,不使用平台共享网络则需要。
访问API网关,网络类型选公网,其他配置按需选择。
打开 镜像仓库控制台,根据提示开通火山引擎镜像仓库服务。
使用已注册的火山引擎主账号登录机器学习平台,进入平台会自动弹出跨服务授权的页面,提交表单后即可完成对象存储、镜像仓库等依赖服务的跨服务授权。
到此所有需要的服务均已开通,下一步则由主账号为普通开发者创建对应的子用户账号(可选)。
打开 对象存储控制台,根据提示开通火山引擎对象存储服务。
打开 文件存储 vePFS 控制台,实例列表-创建文件系统(可能需要 10~20 分钟)以及实例的挂载服务
vePFS支持通过fileset设置子路径,提供更细粒度的数据权限控制。
使用已注册的火山引擎主账号登录,打开 机器学习平台控制台-全局配置,首次进入弹出跨服务授权页面,完成对象存储、镜像仓库等依赖服务的跨服务授权。
为了连通用户和平台之间的私网环境、挂载 vePFS、NAS 等文件系统等操作,需要进行私网配置。根据 CPU / GPU 算力资源、vePFS 资源所在的可用区,配置同可用区的子网。支持关联多个子网,直接关联默认安全组。
说明
绑定 VPC 后,公网类型可以选择两种,专享网络和共享网络,专享网络需要绑定自己购买的 NAT 网关、 EIP 、API 网关,可获得更好的公网体验,建议生产环境使用。
共享网络为平台所有租户共享带宽,目前可免费使用公网,测试环境可以使用,正式生成环境不建议使用。
说明
完成上述所有配置后,请联系火山引擎机器学习平台产品解决方案对接人,为您 后台校验配置。同时请继续进行后续配置。
若使用镜像仓库标准版实例,则需要在机器学习平台进行全局配置,完成标准版实例的授权,并指定镜像归档位置。
若使用文件存储 vePFS,则需要在机器学习平台进行全局配置,完成绑定实例、添加挂载权限。
采用vepfs+机器学习平台方案,在代金券到期/vepfs不续费场景删除vePFS时需要先在机器学习平台-全局配置-vepfs中解绑vepfs实例。
若在机器学习平台挂载了两个vePFS实例,请注意以下事项:
- 通过CLI(命令行)和SDK挂载vePFS时,需要指定一个vePFS实例ID,否则无法提交挂载vePFS实例的负载任务。更多请参考命令行工具
- 使用vePFS存储TensorBoard日志同理,也需要指定实例ID。3.产品配置
IAM (Identity and Access Management,访问控制,缩写为IAM)是火山引擎为客户提供的一套权限管理系统,用于控制不同身份对云资源的访问权限。
如果您有多人如团队协作的场景下使用本产品,避免高危操作导致业务损失,建议进行权限拆分和隔离,可由主账号根据团队角色创建子账号并为其分配适当的权限。普通开发者使用有限权限的子账号登录平台进行开发。平台预置了若干常用的策略方便主账号快速地创建子账号并分配权限。
主要步骤如下:
使用主账号在访问控制控制台上,为赋予管理员子账号添加权限,便于子账号使用人管理平台的能力。下面是与机器学习平台使用相关的常见策略,可以根据业务实际使用的情况,进行选择,每个策略的具体含义可在访问控制权限策略 查询。
权限名称 | 必选 / 可选 | 适用场景描述 |
---|---|---|
MLPlatformAdminAccess | 必选 | 机器学习平台全功能管理,包括项目创建、资源调度、任务监控等核心操作。 |
IAMFullAccess | 必选 | 访问控制全功能管理,用于创建子账号、分配权限策略、管理用户组等权限配置操作。 |
TOSFullAccess | 必选 | 对象存储全功能管理,用于存储训练数据、模型文件、日志文件等海量数据存储。 |
BillingCenterFullAccess | 可选 | 费用中心管理,支持账单查询、费用分析、合同管理、发票申请等财务相关操作。 |
AccessKeyFullAccess | 可选 | 主账号下所有 AccessKey 的创建、删除、查看等管理操作,如有火山引擎 OpenAPI 调用的需求,需要配置。 |
VPCFullAccess | 可选 | 私有网络全功能配置,包括 VPC 创建、子网划分、路由表管理、NAT 网关等网络架构。 |
APIGFullAccess | 可选 | API 网关全功能管理,支持创建 API 接口、配置公网域名、流量监控等网络服务。
|
CRFullAccess | 可选 | 镜像仓库全功能管理,支持镜像 / 模型工件的上传、下载、版本管理等操作。 |
TLSFullAccess | 可选 | 日志服务全功能管理,支持采集、存储、查询、分析资源操作日志及监控指标。 |
VMPFullAccess | 可选 | 托管 Prometheus 服务全功能管理,支持监控指标采集、告警规则配置等。 |
CFSFullAccess | 可选 | 大数据文件存储全功能管理,支持创建文件系统、权限配置、数据读写等操作。 |
vePFSFullAccess | 可选 | 文件存储全功能管理,支持高性能文件系统创建、容量管理、协议配置等。 |
如团队中不止一位管理员,可重复上面操作为每一位管理员添加权限,或者创建管理员权限的用户组,授予上面权限,实现按组管理和授权。
管理员子账号授权成功,可以由主账号或管理员账号根据团队中算法工程师创建子账号,并在访问控制控制台上赋予对应子账号下面的权限。
MLPlatformDeveloperAccess:机器学习平台(veMLP)算法开发人员权限。授予该策略的子用户将拥有开发机、自定义任务、推理服务和部署的读写权限(仅限自己创建的);也将授予镜像、实验管理等模块的 Get、List 等接口权限。
说明
上述配置全部完成并校验无误后,联系机器学习平台产品解决方案对接人为您扩容计算节点资源,并添加资源组下单 Quota。根据算力规模不同,所需的时间不尽相同,请耐心等待通知再进行后续操作。
您获得资源开通成功通知,即可通过资源组创建资源,开始AI开发工作。
主账号登录机器学习平台,选择左侧导航的【资源组管理】-【资源组】,可以新建资源组。如果非主账号,需要额外具备billFullAccess权限才可以创建资源组。
主账号可以将资源组资源按照业务需求、项目要求进一步按照队列进行拆分。可以在【资源组】列表页的资源组的操作中【创建队列】,也可以在左侧导航的【队列】中新建队列。
使用开发机、自定义任务、在线服务选择【实例规格】时请留意,A100/A800等高性能GPU存在两种规格:
- 高性能计算GPU型:例如A100,ml.hpcpni2.28xlarge,支持RDMA网络通信,高性能。通常整机多实例计算选择此规格。
- GPU型:例如A100,ml.pni2.28xlarge,支持TCP网络通信,普通性能,通常单卡单机选择此规格。
自此您账号下团队算法工程师可以使用机器学习平台以及火山引擎相关产品,来进行模型开放、训练、推理等工作。
如资源使用完毕,请及时退订资源,避免不必要的费用开销。
请注意,您在机器学习平台全局配置中对各个关联云产品进行取消授权,并前往各个云产品的控制台删除相关实例。