You need to enable JavaScript to run this app.
导航

通用环境变量列表

最近更新时间2024.01.03 14:49:10

首次发布时间2021.09.26 10:36:42

在使用【自定义训练】模块时,机器学习平台为用户注入了大量的通用环境变量,便于用户在代码中便捷地使用。

训练角色无关

变量名称示例变量说明
MLP_TASK_IDt-20210924211641-nznsh任务的 ID。
MLP_TASK_OWNERusername创建任务的用户。
MLP_TASK_NAMEmnist提交时的任务名称。
MLP_TASK_IMAGEcr-cn-beijing.ivolces/ml_platform/python:2.7_3.7训练镜像的地址。
MLP_TASK_CMDpython3 /root/code/main.py任务的启动命令。
MLP_TASK_ARGS--key1 value1 --key2 value2直接拼接在启动命令后的参数列表。
MLP_ROLEWORKER分布式中的训练角色。取值范围是 WORKER / SERVER / SCHEDULER / CHIEF / PS / EVALUATOR。
MLP_ROLE_INDEX0该节点的角色编号(从0开始),如 worker0、worker1 ...。
MLP_${MLP_ROLE}_RACK_SW_IDfebd30c7302dda1fae1399fe0266930f任务实例所处节点的交换机 hash id,仅对 HPC 的容器才会注入该值。
MLP_RACK_TOPO_FILE/ml_platform/rack_topo交换机信息文件在容器中的路径。
MLP_${MLP_ROLE}_RACK_RANK_INDEX0根据交换机 id 排序后,该实例所处位置的序号。排序保证 worker0 的 index=0。
MLP_IFNAMEeth0默认网卡的名称。
GLOO_SOCKET_IFNAMEeth0为 Gloo 指定的网卡名称。
MLP_HOST10.128.97.74当前节点的 IP,有 RDMA 时为 RDMA IP,否则为 VPC IP。
MLP_PRIMARY_HOST10.128.97.74当前节点的 VPC IP。

训练角色相关

变量名称示例变量说明
MLP_${ROLE}_NUM2该角色节点的数量。
MLP_${ROLE}_CPU2该角色节点的 CPU 数量。
MLP_${ROLE}_MEM10240该角色节点的 MEM 大小,单位 MB。
MLP_${ROLE}_GPU3该角色节点的 GPU 的数量。
MLP_${ROLE}_ALL_HOSTS10.128.97.74,10.128.96.17,...该角色的所有实例的主机名称。
MLP_${ROLE}_${INEDX}_HOST10.128.97.74该角色第 INEDX 个节点的主机名称。
MLP_${ROLE}_${INEDX}_PORT9006该角色第 INEDX 个节点的端口。
MLP_${ROLE}_ALL_PRIMARY_HOSTS10.128.97.74该角色的所有实例的 VPC IP。
MLP_${ROLE}_${INEDX}_PRIMARY_HOST10.128.97.74该角色第 INEDX 个节点的 VPC IP。