You need to enable JavaScript to run this app.
导航
创建项目
最近更新时间:2024.09.23 16:14:15首次发布时间:2022.09.26 20:53:58

1 约束限制

仅租户主账号或具备 DataLeapFullAccess 权限的 IAM 子账号才可创建项目。关于账号的详细说明请参见账号权限

2 前提条件

  • 若选择 EMR 引擎服务,需确保已在引擎管理页面绑定相应的 EMR 集群。绑定 EMR 集群的相关说明请参见 绑定 EMR 集群
  • 满足以下条件后,才可绑定 ByteHouseCE 引擎服务。
    • 已开通大数据分析湖仓一体分布式数据自治DataOps敏捷研发服务。详细操作说明请参见 DataLeap 服务信息
    • 若由子账号绑定 ByteHouseCE 引擎服务,则该账号需具备 ByteHouseCEStandardAccess 权限且添加要绑定集群的权限后,才可以绑定成功。添加权限相关说明请参见 ByteHouse CE SQL任务
  • 已开通大数据分析湖仓一体分布式数据自治DataOps敏捷研发服务,才可绑定 ByteHouse 云数仓版引擎服务。

3 操作步骤

  1. 登录 DataLeap 控制台。

  2. 单击左侧导航栏的项目管理,进入项目管理页面。

  3. 单击创建项目按钮,进入创建项目页面。
    图片

  4. 设置项目相关配置信息后,单击确定按钮,即完成项目创建。
    新建项目相关参数说明如下表所示。其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。

    参数

    说明

    基础信息

    *当前区域

    当前 DataLeap 服务所属的地域信息,默认为开通 DataLeap 服务时选择的区域,此处不可编辑。

    说明

    若开通了多个区域,可通过页面顶端导航栏的区域下拉框选择靠近您业务的区域。

    *项目名称

    创建项目的名称,按需设置。
    仅可由汉字、字母、数字、下划线、或特殊字符.、[]、【】、()、()组成。

    *项目类型

    分为公开和私有。

    • 公开:只要是租户成员,即可进入项目,查看项目下的任务信息。
    • 私有:只有该项目下的成员,才可进入项目,查看项目下的任务信息。

    说明

    开通 DataOps敏捷研发湖仓一体分布式数据自治服务后,项目类型才可设置为私有。

    *项目模式

    目前仅提供简单模式

    *所有者

    租户主账号,不可修改。

    *项目描述

    项目有关的描述信息。

    项目账号

    项目下任务若需要使用统一的账号提交鉴权,可将租户主账号/租户下某子账号设置为项目账号。

    数据源开发生产环境隔离

    可选择是否开启数据源开发生产环境隔离。

    • 若勾选开启隔离,则数据源支持开发生产环境隔离,开发环境任务配置和任务调试只能使用开发数据源,发布自动使用生产数据源。
    • 若不勾选开启隔离,则默认简单模式只能注册生产数据源。

    注意

    项目一旦初始化配置后将不可再变更,请谨慎操作!

    项目管控

    *鉴权配置

    开发、生产环境对应的提交鉴权账号设置。

    • 未配置项目账号:开发、生产环境鉴权,仅可使用用户账号
    • 已配置项目账号:生产环境鉴权,可按需选择使用用户账号项目账号;开发环境鉴权,默认使用用户账号

    *项目回溯控制

    无本项目编辑权限的用户,通过上游回溯本项目下的任务,选择是否需要审批。

    • 直接执行:无本项目编辑权限用户,通过上游回溯本项目下的任务,直接生成对应回溯实例且执行。
    • 审批同意后执行:无本项目编辑权限用户,通过上游回溯本项目下的任务,需要任务责任人或是项目管理员审批同意后,才能生成回溯实例且执行。

    任务依赖的默认配置方式

    用于决定项目下任务调度设置时,默认采用的任务依赖关系配置方式。支持指定偏移量依赖就近依赖两种配置方式选项,默认选中指定偏移量依赖

    • 指定偏移量依赖:在依赖不同调度频率的任务或者调度日期出现偏移时,需要手动设置偏移量。
    • 就近依赖:下游实例寻找上游依赖时会遵循就近原则,即依赖距离其定时运行时间最近(等于或早于本实例的定时时间)的上游实例。

    项目最大并行度

    项目内任务运行的最大并行数,设置范围为1~5000的整数,项目最大并行度应大于等于项目重跑最大并行度。

    说明

    由于目前使用公共调度资源组,单个租户最大的并行度是100,即一个租户下各项目最大的并行度上限值是100。

    项目重跑最大并行度

    项目重跑的任务运行最大并行数,设置范围为1~5000的整数,项目重跑最大并行度应小于等于项目最大并行度。

    说明

    现阶段项目重跑最大并行度的上限值也是100。

    默认监控规则

    系统提供的基础监控规则,规则内容为任务重试结束仍失败,报警以邮件形式发送给任务负责人,且仅发送1次。
    若选择启用,则项目内任务上线时,会默认启用监控规则。

    说明

    • 默认监控规则由系统提供,用户不可修改。
    • 任务上线时/上线后,均可选择是否使用默认监控规则。
    • 若选中任务中包含Kafka2HDFS任务,默认监控规则对该类型任务不生效。

    数据安全设置

    项目下查询数据结果相关的安全设置。

    • 任务查询结果显示最大记录:任务查询返回结果可显示的最大记录数。可按需设置,设置范围为1~10000的整数。
    • Select查询结果设置:可选择是否允许下载和复制查询结果。

    消息通知设置

    可选择在什么情况下发送通知消息,支持以下选项,可多选。

    • 临时查询运行成功
    • 临时查询运行失败
    • 任务调试运行成功
    • 任务调试运行失败

    服务绑定

    计算资源组设置

    用于Notebook、Python、Shell等任务类型任务执行。
    支持公共计算资源组和独享计算资源组选项,下拉可选运行中的资源组,可设置多个。

    *调度资源组设置

    支持公共调度资源组和独享调度资源组,下拉可选运行中的资源组,可设置多个。

    数据集成资源组设置

    可按需绑定已开通的数据集成资源组,下拉可选,可设置多个。
    若无所需选项,可单击去创建跳转至独享资源组管理页面,创建新的资源组。

    引擎设置

    已开通引擎 E-MapReduce(EMR)、湖仓一体分析服务(LAS)和流式计算 Flink 版,可按需绑定。单击去购买会跳转至相应的管理页面。

    • E-MapReduce:火山引擎提供的在线计算引擎,支持Hadoop、Spark、HBase、Hive、Flink等大数据组件。设置项包括 EMR 集群Yarn 队列访问模式
      • EMR 集群:仅可选择运行中的 EMR 集群。
      • Yarn 队列:EMR 集群下对应的 Yarn 队列,下拉可选运行中的队列,支持设置多个。
      • 访问模式:支持快捷模式和安全模式,选择集群后会自动显示相应的访问模式。集群访问模式的设置说明请参见绑定 EMR 集群

      说明

      • 项目和 EMR 集群是多对多的绑定关系,即一个项目可以绑定多个 EMR 集群,而多个项目也可以绑定同一个 EMR 集群。
      • EMR 引擎目前支持绑定 Hadoop、TensorFlow、Flink、Doris 和 StarRocks 五种集群类型的 EMR 版本,其中 Doris 和 StarRocks 仅支持绑定 3.2.1 版本。不同版本说明请参见 EMR版本概述
      • 项目需绑定 EMR 1.3.1 或之前的版本,且集群中需包含 Flink 组件服务,方可创建 EMR 流式数据任务,其余版本将在后续支持创建流式数据任务。EMR 支持的任务类型请参见数据开发 > 概述
      • 当绑定安全模式的集群时,为保证任务可正常执行,请确保项目下全部成员已完成账号映射。
    • EMR Serverless StarRocks:是开源StarRocks在火山引擎上的全托管服务,您可以灵活的创建和管理StarRocks实例以及数据。设置项包括实例名称访问模式
      • 实例名称:仅可选择已绑定且运行中的 EMR Serverless StarRocks 实例。
      • 访问模式:支持快捷模式和安全模式,选择实例后会自动显示相应的访问模式。实例访问模式的设置说明请参见绑定 EMR Serverless StarRocks 实例
    • EMR Serverless Spark:是基于 Serverless 的 Spark 服务,支持 Spark SQL 和 Spark Jar,满足中大型客户对不同状态资源的差异化诉求。设置项包括服务实例计算队列
      • 服务实例:下拉可选运行中的默认实例 serverless_spark_default
      • 资源队列:服务实例下已创建的资源队列,下拉可选,支持绑定多个。
    • EMR Serverless Presto:是基于 Serverless 的 Presto 服务,提供交互式SQL查询。设置项包括服务实例计算队列
      • 服务实例:下拉可选运行中的默认实例 serverless_presto_default
      • 资源队列:服务实例下已创建的资源队列,下拉可选,支持绑定多个。
    • 湖仓一体分析服务:Serverless湖仓一体分析服务,企业级标准构建湖仓分析平台。设置项包括服务实例LAS队列
      当绑定湖仓一体分析服务引擎实例时,服务实例默认选择 default,支持绑定多个服务实例下对应的LAS队列。每个LAS队列的显示信息包括队列名称、队列类型(公共队列、独占队列)、具体状态(如正常、到期停服、欠费等)。
    • 流式计算 Flink 版:企业级全托管流式计算平台,支持开箱即用,Serverless极致弹性,极简SQL开发,流批一体等特性。设置项包括引擎项目资源池
      • 引擎项目:是指已在该引擎上创建的项目,下拉可选。绑定后,当前项目下任务会映射至对应引擎项目。
      • 资源池:引擎项目下已创建的资源池,下拉可选,支持绑定多个。
    • ByteHouse CE:是企业的智能增长引擎,基于开源 ClickHouse 的企业级分析型数据库,支持用户交互式分析 PB 级别数据,通过多种自研表引擎,灵活支持各类数据分析和应用。设置项包括 ByteHouse CE 集群,下拉可选已创建的集群,支持绑定多个。
    • ByteHouse 云数仓版:是一个同时支持实时和离线导入的自助数据分析平台,能够对 PB 级海量数据进行高效分析。设置项包括服务实例计算组
      • 服务实例:默认为 default_ins,下拉可选。
      • 计算组:服务实例下已创建的计算组,下拉可选,支持绑定多个。

说明

  • 只有任务责任人和项目账号都具备 LAS 队列使用权限时,才可以向绑定的 LAS 队列提交任务。否则,需主账号前往 LAS控制台 > 权限管理 授予其队列权限。
  • 通过概览页面的新建项目按钮,也可创建项目。

4 后续操作

创建项目后,您可继续完善该项目的其他配置信息,如复查配置、队列管理、同步设置等,并可前往数据开发页面,在该项目下进行相应的任务开发操作。