You need to enable JavaScript to run this app.
导航

使用说明

最近更新时间2022.09.22 16:55:45

首次发布时间2022.04.28 13:01:14

EMR DataScientist 集群是火山引擎 E-MapReduce(EMR)的分布式训练方案。通过使用 ByteDance 自研的 Primus 训练调度框架,您可以轻易的在 YARN 集群上进行分布式的 TensorFlow 训练任务。
由于 Primus 本身为一个通用的多角色分布式训练调度框架,透过配置多种不同训练角色,Primus 即可支持 TensorFlow 内建的各种分布式策略如 Parameter Server。
alt

如上图所示,一个 Primus 训练任务的生命周期主要包含两个阶段,分别是 提交阶段 以及 运行阶段

  1. 提交阶段:

    在提交阶段时,您仅需要准备 Primus 训练配置和需要的训练资源如训练脚本,在您发送提交指令后,Primus Client 便会先将上传您指定的训练资源到 HDFS ,接着正式向 YARN Cluster 提交一个分布式任务。

  2. 运行阶段:

    在顺利提交 Primus 训练任务后,Primus 训练任务便会进入运行阶段。
      在这个阶段 Primus 会开始初始配置的训练角色,依序包含申请 Yarn Container,下载训练资源,最后执行该角色在 Primus 训练配置里所设定的运行指令。最终在成功启动所有训练角色后,Primus 训练任务会开始观察所有训练角色,当所有角色都满足定义在 Primus 训练配置中的退出条件后,Primus 训练任务便会成功退出。