You need to enable JavaScript to run this app.
导航
(Preview)使用 RAY计算引擎提交分布式任务
最近更新时间:2024.05.31 14:35:05首次发布时间:2024.05.10 21:09:58

火山引擎机器学习平台现已支持使用 Ray 分布式计算引擎。算法工程师现在可以利用 Python 和 Ray Ai Runtime,轻松地进行大规模数据处理和分布式模型训练。我们致力于提供一站式的机器学习服务,助力客户打造高效、可靠的机器学习工作流程。我们进一步优化了服务,通过将 Ray 框架(ray.io)与自定义任务模块无缝集成,简化了 Ray 作业的创建和执行过程,实现了作业的灵活调度和按需执行。

使用 Ray 时,用户无需对代码进行任何修改或调整资源配置,只需携带包含 Ray Runtime 的镜像,即可快速启动 Ray 作业。此外,用户还可以通过 veMLP 中的开发机模块与 Ray 引擎连接,进行任务开发和调试。Ray(Preview)目前支持了华北2(北京)、华东2(上海)等地域。

使用前提
  1. 拥有 >= 1 个预付费队列的使用权限。
操作步骤

平台支持通过控制台(Web 页面)和命令行工具发起训练任务,下文将介绍控制台提交 Ray Job 方式的操作步骤。

  1. 登录机器学习平台,单击左侧导航栏中的【自定义任务】进入列表页面。
  2. 单击列表页面左上方的【+ 创建自定义任务】进入创建页面。
  3. 在创建页面填写相关参数,具体请参考发起自定义任务
使用指南
  1. 选择 Ray Job 镜像时,若您需要选择自定义镜像,请确保镜像中存在 Ray 相关的二进制文件,镜像中的 Ray 版本应符合特定的要求范围,即在 2.2.0 到 2.9.3 版本之间。
    alt
  2. 在资源配置-实例配置处,选择 Ray 框架,并且完成相应角色的资源配置
    alt
    3.在 Ray Job 运行后,您可前往任务详情页通过VPC 网络访问 RayDashboard
    4.若您需要查看 Ray Job 的日志或监控信息,可在详情页切换 Tab 查看