如何高效合并同结构表：优先选用增量更新表数据？

阿华AIGC实验室

2026-5-6

更简洁健壮的实现方案（通用SQL + Spark SQL适配）

嘿，你的这个需求其实是典型的**"增量覆盖基础数据"**场景，当前的写法确实有点冗余，而且容易出现逻辑漏洞，这里给你两种更简洁且通用的实现方式，不管是Spark SQL还是SQL Server都能很好地兼容：

方法一：全外连接 + `COALESCE`函数（最直观）

核心思路是：先通过全外连接拿到所有的key（同时包含TABLE_A和TABLE_B的key），然后对每个key，优先取TABLE_B的val，TABLE_B没有的话就用TABLE_A的val。

SELECT
    COALESCE(b.key, a.key) AS key,
    COALESCE(b.val, a.val) AS val
FROM TABLE_A a
FULL OUTER JOIN TABLE_B b
ON a.key = b.key

解释：

COALESCE函数会返回参数列表中第一个非NULL的值，完美契合"优先用B，没有用A"的逻辑
全外连接保证了不会漏掉任何一方的key（比如示例里TABLE_B的key=5，TABLE_A的key=1/3）
这个写法非常简洁，性能也不错，适合大多数简单场景

方法二：`UNION ALL` + 窗口函数（更灵活）

如果以后你遇到更复杂的优先级场景（比如多个增量表），可以用这种方法，通用性更强：

WITH combined_data AS (
    SELECT key, val, 1 AS priority -- 给TABLE_B的行最高优先级
    FROM TABLE_B
    UNION ALL
    SELECT key, val, 2 AS priority -- TABLE_A的行优先级次之
    FROM TABLE_A
)
SELECT key, val
FROM (
    SELECT 
        key, val,
        ROW_NUMBER() OVER (PARTITION BY key ORDER BY priority ASC) AS rn
    FROM combined_data
) t
WHERE rn = 1 -- 只保留每个key下优先级最高的行