开源组件使用限制--E-MapReduce-火山引擎

文档中心

E-MapReduce

使用限制

开源组件使用限制

在您使用及维护 EMR 集群时，一些非预期的操作可能会导致集群不可用或不稳定，您在控制台执行部分操作前会有相应的风险提示，本文为您列举了一些禁止及高危操作：

禁止及高危操作

组件	高危操作	建议
HDFS	使用RouterBasedFederation代理转发RPC性能下降	RouterBasedFederation有RPC性能下降的问题，如需使用建议通过提工单的方式，联系火山引擎技术支持人员
	使用EC 实现存储降本	不建议使用，如有存储降本需求，可以将冷数据通过distcp转存到对象存储
	使用Symlink创建软连接	不建议使用
	在数据迁移之外的场景使用snapshot	不建议使用
	使用本地journal	不建议使用，可使用Quorum Journal Manager
	使用single模式部署	不建议使用，可使用HA模式部署
	使用S3A访问对象存储	不建议使用，可使用Proton SDK模式
	使用Provided Storage	不建议使用，如需使用建议通过提工单的方式，联系火山引擎技术支持人员
	使用本地盘存储NameNode和JournalNode的image & edits	不建议使用，可使用EBS云盘
	使用hdfs namenode stale read	不建议使用，可使用直读active的模式
	使用AvailableSpaceRackFaultTolerantBlockPlacementPolicy、AvailableSpaceBlockPlacementPolicy	不建议使用，可使用默认的BlockPlacementPolicyDefault
	使用dfs.replication参数修改副本数	不建议使用，会有数据丢失的风险
Hive 3.x	使用Casting timestamps函数获取时间戳	建议使用 `from_utc_timestamp` 和 `to_utc_timestamp` 参考官网：Different TIMESTAMP types和Hive UDFs
	开启Hive SQL向量化模式	不建议使用
	使用 Hive on Spark或Hive on MR	建议使用 Hive on Tez
	开启事务，创建事务表	不建议使用
	开启 hive.optimize.join.reduce.deduplication参数	不建议开启该参数
	开启 hive.auto.convert.sortmerge.join.reduce.side参数	不建议开启该参数参考官网：HIVE-27303
	1.x 版本升级到 3.x 版本，且表的 bucketing_version 不是 2	建议修改元数据，将所有表 bucketing_version 修改为 2
	Union all 子句中存在 lateral view	不建议使用参考官网：HIVE-21660
Spark 3.5.x	Structured Streaming，watermark和time-interval的双流join可能导致不符合预期的状态清理，尽量避免这种用法	不建议使用
Spark 3.5.x	在如下场景使用Spark Connect： spark connect client被killed之后没有正确shutdown drop temp view后，show有问题调用UDF，反序列化可能有问题引用第三方依赖，可能会有类加载问题在spark connect中集成deltalake有问题 MacOS下使用spark-connect-repl有问题	不建议使用
Flink 1.16.x	开启Queryable state特性	不建议使用该特性
	开启State Changelog特性	不建议使用该特性
	将TM network blocking shuffle type配置为：mmap	建议配置为file
	将TM network 压缩编码配置为：LZO与ZSTD	建议配置为LZ4
	Flink on YARN 使用：Per-Job Mode	建议使用application mode替代
	使用DataSet API及相关的connectors	建议使用 Table API 和 SQL，以便在完全统一的 API 中运行高效的批处理管道，或使用具有 BATCH 执行模式的 DataStream API
Kyuubi	使用如下协议通过Kyuubi来访问后端引擎： Restful api(http) MySQL兼容的文本协议 Trino兼容的http协议	不建议使用
Kyuubi	使用由如下语言编写的代码通过Kyuubi提交给后端引擎： Python Scala	不建议使用
Doris 2.x/ Doris 3.x	部分列更新导致crash	2.0.2及以下不建议使用
	使用replication_num参数修改副本数	不建议使用，会有数据丢失的风险
	数据均衡不生效	2.0.2及以下不建议使用
	执行`DELETE FROM 表名 WHERE 过滤条件`操作	不建议使用，该操作涉及全表扫描，资源消耗量大，建议通过 `drop table` 或 `drop partition` 语句执行删除操作
	查询时不使用分区键与分桶键进行过滤	不建议使用，此类查询涉及全表扫描，资源消耗量大，建议充分评估后执行
	高并发查询、写入以及schema change等操作导致集群资源过载	不建议执行超出集群资源能力的负载，会导致集群不稳定。增加负载时需进行压测
	存算一体实例建表时副本小于3	不建议使用，数据可靠性得不到保障
	生产环境集群需要使用单FE节点	非高可用集群不承诺 SLA，生产环境推荐使用高可用版本；
Doris 1.X	连续执行add column操作	不建议对同一个表连续执行add column操作
	使用replication_num参数修改副本数	不建议使用，会有数据丢失的风险
	查询时不使用分区键与分桶键进行过滤	不建议使用，此类查询涉及全表扫描，资源消耗量大，建议充分评估后执行
StarRocks	使用物化视图（MATERIALIZED VIEWS）功能	3.2.x 及以下版本不建议使用
	使用异步物化视图（ASYNC MATERIALIZED VIEWS）功能	3.2.x 及以下版本不建议使用
	主键表的迁移与compaction	3.2.x 及以下版本不建议使用
	使用spill功能	3.2.x 及以下版本不建议使用
	并发场景下bitmap使用与str_to_map 函数使用	3.2.x 及以下版本不建议使用
	存算分离表delete 分区过多	3.1.x 及以下版本不建议使用存算分离，建议在3.2.x及以上版本使用该功能
	执行`DELETE FROM 表名 WHERE 过滤条件`操作	不建议使用，该操作涉及全表扫描，资源消耗量大，建议通过 `drop table` 或 `drop partition` 语句执行删除操作
	查询时不使用分区键与分桶键进行过滤	不建议使用，此类查询涉及全表扫描，资源消耗量大，建议充分评估后执行
	高并发查询、写入以及schema change等操作导致集群资源过载	不建议执行超出集群资源能力的负载，会导致集群不稳定。增加负载时需进行压测
	存算一体实例建表时副本小于3	不建议使用，数据可靠性得不到保障
	生产环境集群需要使用单FE节点	非高可用集群不承诺 SLA，生产环境推荐使用高可用版本；
Presto	使用 Presto on Velox 模式	不建议使用 Presto on Velox 模式，部分算子不支持
Presto	执行大型 ETL 作业	不建议执行大型 ETL 作业，会影响集群稳定性
Ray	在在线服务场景下使用Ray Serve	不建议使用

数据覆盖风险及规避建议

无论是自定义代码，还是开源组件执行的维护操作，涉及数据变更或删除时均存在误删风险。为保障数据安全，建议遵循以下原则：

TOS 存储保护：若使用 TOS，分层桶必须开启回收站功能，扁平桶必须开启版本控制。
理解引擎行为：除开启底层存储恢复功能外，用户必须明确计算引擎的操作原理，审慎评估写入模式，避免意外的数据覆盖与丢失。

下表简要说明常见大数据引擎的数据覆盖风险及核心规避建议。

引擎/组件	核心风险与规避建议摘要
HDFS	风险：覆盖写入：`create(overwrite=true)`、`rename(OVERWRITE)` 等操作会直接覆盖或替换目标文件/目录，导致数据丢失。 DistCp 误用：`distcp -overwrite` 强制覆盖目标数据；`distcp -delete` 会删除目标端多于源端的文件，若使用不当易造成大面积数据删除。 Committer 并发冲突：`FileOutputCommitter` 默认提交机制在合并任务输出时可能覆盖同名文件，引发并发写入冲突。回收站未开启：默认 `fs.trash.interval=0`，误删后无法通过回收站直接恢复。建议：路径隔离：为每个作业分配唯一输出目录；先将数据写入临时目录，成功后通过原子 `rename` 切换到最终目录。启用保护机制：为关键目录开启回收站（`fs.trash.interval` 设为非零）并启用快照（Snapshot）功能，作为数据恢复的最后防线。审慎使用 DistCp：严格限制 `-overwrite` 和 `-delete` 的使用，优先采用 `-update` 进行增量同步，或使用 `-atomic` 确保全量切换原子性。
Hive	风险： INSERT OVERWRITE 清空分区：对非 ACID 表执行 `INSERT OVERWRITE` 时，会先清空目标分区再写入新数据，若分区指定错误会造成大范围数据丢失。动态分区覆盖范围扩大：在 `nonstrict` 模式下，若未严格限定分区列，`INSERT OVERWRITE` 可能意外覆盖全表或非预期分区。外表目录清理误删：删除外部分区（`DROP PARTITION`）时，若配合外部脚本清理 HDFS 路径，可能误删被多引擎共享的物理目录。 ACID 表变更风险：对 ACID 表的 `UPDATE/DELETE` 范围过宽可能导致大量行版本失效，依赖 Compaction 清理；不当手工操作会破坏事务一致性。建议：保持 strict 模式：可以通过设置 `hive.exec.dynamic.partition.mode=strict`，要求动态分区写入必须包含静态分区，防止全表覆盖。优先使用 ACID 表：对于需要更新、删除或 `MERGE` 的场景，优先采用 ACID 事务表，利用其行级变更和版本控制能力。严格分区限定：所有 DML 操作，特别是覆盖写（`INSERT OVERWRITE`），必须绑定业务分区键进行过滤，避免范围扩大。外表只读管理：将外表视为只读视图，物理数据由唯一上游所有者管理和写入，避免多头写入冲突。
Spark	风险：参数 `spark.sql.sources.partitionOverwriteMode` 在开源社区的默认值为 static。在对 DataSource 类型表（如 Parquet/ORC）执行覆盖写入时，static 模式会清理掉匹配到的全量分区数据，而非仅覆盖写入部分。这在增量更新场景下极易导致历史数据被意外清空。 Hive SerDe 表行为不一致：使用 Hive SerDe 表（`STORED AS ...`）时，覆盖行为总是动态的（DYNAMIC），与 DataSource 表的默认静态模式不一致，增加行为预测难度。流式 Complete 模式全表覆盖：Structured Streaming 的 `outputMode="complete"` 要求 Sink 支持 `truncate`，导致每个微批触发时都进行全表或目标的清空和重写。建议：统一配置动态覆盖：在平台或作业级别将 `spark.sql.sources.partitionOverwriteMode` 设置为 `DYNAMIC`，使分区覆盖仅替换本次写入涉及的分区。数据湖优先 DML：对 Iceberg、Hudi、Delta 等数据湖表，优先使用 `MERGE INTO`、`UPDATE`、`DELETE` 等专用 DML 进行细粒度变更，而非 `SaveMode.Overwrite`。流式写入幂等：在 Structured Streaming 中，利用 Checkpoint 和 `foreachBatch` 提供的 `batchId`，在写入外部系统时实现幂等操作，避免重试导致的数据重复或不一致。
Presto/Trino	风险： Hive Connector 分区覆盖：通过会话属性 `insert_existing_partitions_behavior` 可将 `INSERT` 行为从默认 `APPEND` 改为 `OVERWRITE`，存在意外覆盖分区的风险。数据湖 DML 范围失控：对 Iceberg/Delta 表执行 `MERGE`、`UPDATE` 或 `DELETE` 时，若 `WHERE` 条件过于宽泛，可能导致大规模数据版本失效或逻辑删除。 Delta CREATE OR REPLACE 原子替换：Delta Connector 支持 `CREATE OR REPLACE TABLE`，这是一个原子性的全表替换操作，误用后旧表数据将逻辑消失，依赖快照恢复。 JDBC Connector 多语句非原子：通过 JDBC Connector 对下游数据库执行多条写操作（如 `DELETE` 后 `INSERT`）不具备原子性，中间失败会导致数据状态不一致。建议：限定 DML 范围：对 Iceberg/Delta 表执行 `MERGE`、`UPDATE`、`DELETE` 时，必须通过 `WHERE` 子句严格限定分区和主键（或唯一键），确保变更范围可控。禁止生产表 REPLACE：严格禁止或通过权限控制在生产环境的 Delta 表上使用 `CREATE OR REPLACE TABLE`，应采用 `INSERT OVERWRITE` 或 `MERGE` 等更安全的方式更新。配置快照保留：为 Iceberg/Delta 等支持时间旅行的表配置合理的快照保留策略，确保误操作后有足够时间窗口进行数据恢复。利用原生数据库事务：对于需要多语句原子保证的场景，应在目标数据库（通过 JDBC 连接时）侧使用存储过程或应用端事务封装，而非依赖 Trino 侧的多条独立 DML。
Ray	风险：写入模式语义不可预测：`write_*` 的 `OVERWRITE` 行为因数据源而异。例如 Iceberg 支持条件覆盖，而 Parquet 底层映射为 `overwrite_or_ignore`，易导致预期偏差。并发写入缺乏原子性：直接写入目标路径，无“临时目录+原子提交”机制，部分任务失败时可能残留不完整文件。 Write UUID 缺失可能覆盖文件：自定义 `FilenameProvider` 若未包含 `write_uuid`，在 `OVERWRITE` 模式下可能静默覆盖已有文件。建议：明确写入模式行为：使用前查阅数据源官方文档；对于 Iceberg 表，利用 `overwrite_filter` 精确控制覆盖范围。使用唯一标识保证幂等：在写入任务中引入 `dataset_uuid` 或自定义 `FilenameProvider`，防止并发/重试时相互覆盖。采用两阶段提交：关键写入先写临时目录，校验后原子 `rename`；或借助数据湖表（Iceberg/Delta）的原生事务能力，避免直接覆盖目标路径。
StarRocks / Doris	风险：主键模型 UPSERT 覆盖：主键表/更新表写入默认采用 UPSERT 语义，同一键后到的数据会覆盖先前写入；若将全量快照或乱序 CDC 多次导入，只会保留最后一批数据，历史明细不可见。 INSERT OVERWRITE 分区清空：默认 `INSERT OVERWRITE` 对表或分区执行“重建并原子替换”，在未启用 `dynamic_overwrite` 时，未在本批涉及的分区也可能被清空；误将按 dt 维度的增量覆盖写成全表/宽范围覆盖，易造成大面积数据丢失。聚合/明细表重复导入：聚合表中同键 SUM/REPLACE 会累加或覆盖结果，明细表不做去重；重跑作业或重复消费日志，会在聚合表上放大指标，在明细表上产生多份重复数据。部分列更新与默认值覆盖：主键表未正确开启或配置 `partial_update`/列列表时，只写部分列会被视为全行 UPSERT，未出现的列按默认值/NULL 覆盖旧值；列模式下列列表不完整或默认值设置不当，容易生成“伪覆盖”数据。 DELETE 条件过宽：通过 `DELETE` 语句或导入 `__op='delete'` 进行删除时，若未按主键/分区严格限定 `WHERE` 条件，可能触发大范围扫描并批量逻辑删除，依赖上游重放才能恢复。建议：模型按需选择：需要保留历史明细时选用明细表；需要更新覆盖时明确主键表并合理使用版本列和 `merge_condition` 防止乱序旧数据覆盖新值。动态覆盖加显式分区：使用 `INSERT OVERWRITE` 时开启 `dynamic_overwrite`，并显式指定 `PARTITION` 范围，确保只覆盖目标分区。导入幂等：所有导入任务使用唯一 label，保证失败重试的幂等性，避免数据重复。严格 DELETE 条件：执行 `DELETE` 必须带主键/分区等严格 `WHERE` 条件，并在小数据量上验证后再操作。分区删除需谨慎：`TRUNCATE`、`DROP PARTITION` 等操作仅在明确范围、有备份或快照保护的前提下执行。

最近更新时间：2026.06.04 10:26:40

这个页面对您有帮助吗？

有用

无用