PySpark合并DataFrame后bigint列变为double的问题排查

阿华AIGC实验室

2026-5-29

问题分析：Union后BigInt列变Double的坑

嘿，这个问题我之前也踩过！看起来你已经验证了列名和表面的类型一致，但Spark在Union操作时的隐式类型转换坑就藏在这里——当某个DataFrame的目标列全是null时，Spark会偷偷把它的实际存储类型当成Double，Union时就会把所有同名字段都转成Double来兼容。

为什么会这样？

Spark的类型系统里，纯null的数值列会被默认推断为Double类型（因为Double是Spark用来表示数值型null的通用类型）。哪怕你一开始定义的是BigInt（也就是LongType），如果整列都是null，Spark的底层存储类型其实已经变成Double了。当你Union的时候，Spark会自动做类型提升，BigInt和Double兼容的结果就是统一转成Double，这就导致你的ID列类型变了。

你可以快速验证这个猜想，跑一下这段代码看看每个DataFrame里该列的非null数量：

for idx, df in enumerate(data_multi):
    non_null_count = df.filter(df.aml_id_key_12739.isNotNull()).count()
    print(f"DataFrame {idx} 中aml_id_key_12739的非null行数: {non_null_count}")

肯定有一个DataFrame的结果是0。

怎么解决？

有两个靠谱的办法：

显式强制转换列类型
在Union之前，给每个DataFrame的目标列强制转成LongType（也就是你要的bigint），确保所有DF的列类型完全统一：

from pyspark.sql.types import LongType

def standardize_id_column(df):
    return df.withColumn(
        "aml_id_key_12739", 
        df["aml_id_key_12739"].cast(LongType())
    )

# 先统一所有DF的列类型，再合并
standardized_dfs = [standardize_id_column(df) for df in data_multi]
data_single = unionAll(*standardized_dfs)

用unionByName替代unionAll（更推荐）
Spark 2.3之后出的unionByName会按列名匹配（而不是位置，避免列顺序错了的问题），同时对类型兼容性的处理更严格。不过还是建议先做显式类型转换，避免全null列的影响：
```
standardized_dfs = [standardize_id_column(df) for df in data_multi]
# 链式调用unionByName合并所有DF
data_single = standardized_dfs[0]
for df in standardized_dfs[1:]:
    data_single = data_single.unionByName(df)
```