You need to enable JavaScript to run this app.
导航
通用环境变量列表
最近更新时间:2025.05.26 19:50:50首次发布时间:2021.09.26 10:36:42
我的收藏
有用
有用
无用
无用

在使用【自定义训练】模块时,机器学习平台为用户注入了大量的通用环境变量,便于用户在代码中便捷地使用。
训练角色无关

变量名称

示例

变量说明

MLP_TASK_ID

t-20210924211641-nznsh

任务的 ID。

MLP_TASK_OWNER

username

创建任务的用户。

MLP_TASK_NAME

mnist

提交时的任务名称。

MLP_TASK_IMAGE

cr-cn-beijing.ivolces/ml_platform/python:2.7_3.7

训练镜像的地址。

MLP_TASK_CMD

python3 /root/code/main.py

任务的启动命令。

MLP_TASK_ARGS

--key1 value1 --key2 value2

直接拼接在启动命令后的参数列表。

MLP_ROLE

WORKER

分布式中的训练角色。取值范围是 WORKER / SERVER / SCHEDULER / CHIEF / PS / EVALUATOR。

MLP_ROLE_INDEX

0

该节点的角色编号(从0开始),如 worker0、worker1 ...。

MLP_${MLP_ROLE}_RACK_SW_ID

febd30c7302dda1fae1399fe0266930f

任务实例所处节点的交换机 hash id,仅对 HPC 的容器才会注入该值。

MLP_RACK_TOPO_FILE

/ml_platform/rack_topo

交换机信息文件在容器中的路径。

MLP_${MLP_ROLE}_RACK_RANK_INDEX

0

根据交换机 id 排序后,该实例所处位置的序号。排序保证 worker0 的 index=0。

MLP_IFNAME

eth0

默认网卡的名称。

GLOO_SOCKET_IFNAME

eth0

为 Gloo 指定的网卡名称。

MLP_HOST

10.128..

当前节点的 IP,有 RDMA 时为 RDMA IP,否则为 VPC IP。

MLP_PRIMARY_HOST

10.128..

当前节点的 VPC IP。

训练角色相关

变量名称

示例

变量说明

MLP_${ROLE}_NUM

2

该角色节点的数量。

MLP_${ROLE}_CPU

2

该角色节点的 CPU 数量。

MLP_${ROLE}_MEM

10240

该角色节点的 MEM 大小,单位 MB。

MLP_${ROLE}_GPU

3

该角色节点的 GPU 的数量。

MLP_${ROLE}_ALL_HOSTS

10.128..,10.128..,...

该角色的所有实例的主机名称。

MLP_${ROLE}_${INEDX}_HOST

10.128..

该角色第 INEDX 个节点的主机名称。

MLP_${ROLE}_${INEDX}_PORT

9006

该角色第 INEDX 个节点的端口。

MLP_${ROLE}_ALL_PRIMARY_HOSTS

10.128..

该角色的所有实例的 VPC IP。

MLP_${ROLE}_${INEDX}_PRIMARY_HOST

10.128..

该角色第 INEDX 个节点的 VPC IP。