You need to enable JavaScript to run this app.
导航

关键配置

最近更新时间2022.09.30 11:40:11

首次发布时间2022.07.28 17:33:38

通过 E-MapReduce(EMR)控制台您可以优雅便捷地修改 Airflow 的运行时配置(详情参见:服务管理-管理服务配置参数),本文为您介绍 Airflow 的几个关键配置。

模块参数描述

core

dags_folder

定义 Airflow 读取 DAG 文件的目录。

plugins_folder

定义 Airflow 读取 plugins 文件的目录。

default_timezone

默认时区设置,支持 IANA 时区字符。
默认值为 Asia/Shanghai。

parallelism

Airflow 全局可以并行运行的最大任务数。
默认值为32。

max_active_runs_per_dag

定义单个 DAG 最多可同时拉起的 DAG Runs 数量。
默认值为16。

max_active_tasks_per_dag

定义单个 DAG 最多同时可运行的任务实例数。
默认值为16。

default_task_retries

定义任务最多的重试次数,可在 DAG 与 Task 级别单独定义。
默认值为0。

scheduler

parsing_processes

控制 Airflow 可以用多少 Scheduler 进程去并发地解析 DAG 文件。
默认值为2。

catchup_by_default

可以控制 Scheduler 是否对 DAG 进行当前时间与 DAG 的 start_date 之间的 backfill 操作,该值不影响通过命令行方式进行的 backfill。
默认值为 true。

dag_dir_list_interval

定义 Scheduler 间隔多少时间去扫描 DAGs 目录从而发现新文件。
默认值为300,单位秒。

min_file_process_interval

控制已被解析过的 DAGs 文件,在间隔多久时间会被重新解析以便更新。间隔太小会显著增加系统负担。
默认值为30,单位秒。

scheduler_zombie_task_threshold

运行中的 Task 会周期性地向数据库报告心跳。该参数控制经过多少时间 Task 没有向 DB 汇报时,会被 Scheduler 标记为失败,并且重新调度。
默认值为300,单位秒。

celery

worker_concurrency

该属性将在您使用 airflow celery worker 命令启动 worker 时起作用,它定义了 worker 将会获取的任务实例数,并启动对应固定数量的 worker 线程,当您对运行负载足够了解时可以通过该参数定义固定的线程数量避免伸缩。
默认值为16。

worker_autoscale

{{max_concurrency}},{{min_concurrency}} 的格式定义了 celery worker 线程池的上下限,celery 会至少保持最少数量(min_concurrency)的线程个数,并根据任务负载进行动态伸缩。如果定义了该值,worker_concurrency 的配置将被忽略。
默认值为"",示例值"16,12"。

webserver

default_ui_timezone

用于 UI 上展示所有数据的默认时区,支持 IANA 时区字符。
默认为 Asia/Shanghai,如不指定则与default_timezone保持一致。

page_size

统一控制在Airflow UI 上所有的列表视图上展示的条目数量。

default_dag_run_display_number

控制在 UI 上展示的 DAG Runs 数量。

关于 Airflow 组件完整的配置说明,详情请参见官方文档:Configuration Reference