PySpark实现指定列转置为行（部分列转行）的方法咨询

阿华AIGC实验室

2026-4-21

Hey，我懂你现在的需求——把DataFrame里的特定列（像Population和GDP）转成行的形式，也就是咱们常说的**熔解（melt）**操作。刚好我有几个实用的PySpark实现方法，咱们一步步来搞定：

首先，先模拟出你给出的输入DataFrame，方便后续测试：

from pyspark.sql import SparkSession
from pyspark.sql import functions as F

# 初始化SparkSession
spark = SparkSession.builder.appName("MeltExample").getOrCreate()

# 创建输入数据
data = [
    ("USA", 2020, 331002651, 21433226),
    ("China", 2020, 1439323776, 16364160),
    ("India", 2020, 1380004385, 3140892)
]

columns = ["Country", "Year", "Population", "GDP"]
df = spark.createDataFrame(data, columns)
df.show()

方法一：使用`stack`函数（简洁高效，适合列数少的场景）

stack是PySpark里专门用来做列转行的函数，语法非常直接，刚好匹配你的需求：

# 用stack函数将指定列转成行
melted_df = df.select(
    "Country",
    "Year",
    # stack(列数, 列名1, 标签1, 列名2, 标签2...)
    F.stack(2, "Population", "Population", "GDP", "GDP").alias("Measure", "Value")
)

# 按Country和Measure排序，让结果更贴合你的示例输出
melted_df.orderBy("Country", "Measure").show()

这里的stack(2, ...)里的数字2代表要转换的列的数量，每一组列名+标签对应一行的Measure和Value，最后用alias给新列命名即可。

方法二：使用`array`+`explode`+`struct`（灵活扩展，适合多列场景）

如果后续需要转换的列变多，手动写stack会很麻烦，这种方法可以批量处理：

# 定义要转换的列名和对应的Measure标签
measure_mapping = [("Population", "Population"), ("GDP", "GDP")]

# 先将每列打包成struct，再转成数组并展开
melted_df = df.select(
    "Country",
    "Year",
    F.explode(
        F.array(*[
            F.struct(F.lit(label).alias("Measure"), F.col(col).alias("Value"))
            for col, label in measure_mapping
        ])
    ).alias("temp")
).select(
    "Country",
    "Year",
    "temp.Measure",
    "temp.Value"
)

melted_df.orderBy("Country", "Measure").show()

这个思路是先把每个要转换的列和标签打包成结构体，再把所有结构体放进数组，最后用explode把数组的每个元素拆成单独的行，提取结构体里的字段就完成了。

其实你之前看到的“PySpark Dataframe melt columns into rows”思路是对的，只是PySpark没有像Pandas那样直接的melt函数，但上面两种方法完全可以实现相同的效果，而且更贴合PySpark的分布式处理特性。

备注：内容来源于stack exchange，提问作者Aavik