运行参数--智能数据洞察（私有化）-火山引擎

文档中心

智能数据洞察（私有化）

同步设置

运行参数

运行参数

1. 概述

用户可通过设置运行参数，优化同步配置，保障同步任务成功率，提升任务性能。

2. 快速入门

2.1 常用使用场景

专业数据生产者，在创建数据集时，为同步任务设置合适的运行参数（资源相关）
普通用户在数据集同步任务失败时，通过查看诊断提示，设置合适的运行参数后重跑任务

2.2 使用入口

自定义 SQL 和表抽取设置可以配置抽取参数

同步配置的高级设置中可以设置运行参数

3. 功能说明

3.1 抽取参数

抽取参数目前支持的数据源类型限制：Mysql、Clickhouse、Oracle、SQL Server、Maxcompute、Impala、Hive_jdbc、Redshift、LAS、Presto、Databricks
支持参数信息：

参数	说明	默认值	是否必填	建议值
prep.job.datax.channel	读取并发数，需要和spiltPk协同使用建议不超过：5 （并发会对目标数据库造成压力）	不开启（1）	否	无唯一键：1 包含形如id的唯一键：5以下
prep.job.datax.partition.num	datax数据抽取之后后续etl处理在spark引擎侧计算的partion数目；使用场景：当目标抽取数据量非常大时（数据量大1000万行），建议开启提升下游处理速度，建议大小为512（2的指数）；	不开启（1）	否	小数据量：1 大数据量：512
prep.job.datax.splitPk	描述：MysqlReader进行数据抽取时，如果指定splitPk，表示用户希望使用splitPk代表的字段进行数据分片，Datax因此会启动并发任务进行数据同步，这样可以大大提高数据同步的效能。推荐splitPk用户使用表主键，因为表主键通常情况下比较均匀，因此切分出来的分片也不容易出现数据热点。目前splitPk仅支持整形数据切分，不支持浮点、字符串、日期等其他类型。如果用户指定其他非支持类型，MysqlReader将报错。如果splitPk不填写，包括不提供splitPk或者splitPk值为空，DataX视作使用单通道同步该表数据。必选：否默认值：空实际上，由测试结果可知，切片是要配合channel来使用的，如果只开了splitpk，但是channel的配置为1，同样不会有并发的效果；	不开启	否	有唯一键则配置，比如唯一键盘为uid，则填写：uid 无唯一键则不配置
prep.job.datax.timeout	datax任务高级配置, MaxCompute数据源分区检测的等待超时时间, 单位分钟. 未配置的情况下, 查询的表分区为空时任务直接失败	不开启	否	不建议开启
prep.job.datax.disable	任务禁用dataX	false	否	false

3.2 运行参数

参数名	功能说明	参数默认值	参数值类型
spark.driver.cores	driver的CPU数量	2	int
spark.driver.memory	driver的内存大小	4g	string
spark.driver.maxResultSize	拉取到Driver的数据上限，一般不需要调整。	2g (默认取spark.driver.memory的一半)	string
spark.executor.cores	每个executor的CPU数。Spark task的最大并发为*spark.executor.cores executor个数**	2	int
spark.executor.memory	executor的内存大小	4g	string
spark.dynamicAllocation.maxExecutors	单个Spark任务的executor的最大个数	100	int
spark.sql.autoBroadcastJoinThreshold	数据源侧的broadcast阈值，设为-1可以禁用。 PS: 禁用后不影响Spark AQE本身的broadcast	-	int
spark.sql.broadcastTimeout	broadcast超时时间。设为-1可以关闭超时限制	-	int
spark.sql.files.maxPartitionBytes	每个分区(Spark Partition)最大的文件大小，针对于大文件切分	268435456	int
spark.sql.files.openCostInBytes	小于该值的文件将会被合并，针对于小文件合并	8388608	int

最近更新时间：2023.05.24 20:52:30

这个页面对您有帮助吗？

有用

有用

无用

无用