Spark中实现分组求平均值的最佳实践及问题咨询

Spark中实现分组求平均值的最佳实践及问题咨询

阿华AIGC实验室

2026-5-27

三元组分组求平均值的最佳实践

先明确下咱们的需求：

输入是一批(整数, 数值, 标识)格式的三元组，比如：

(1,200,a) (2,300,a) (1,300,b) (2,400,a) (2,500,b) (3,200,a) (3,400,b) (1,500,a) (2,400,b) (3,500,a) (1,200,b)

要先按第一个整数排序，然后对同一个第一个整数下的同一个标识，计算对应数值的平均值，最终得到类似这样的结果：
```
(1,350,a), (1,250,b), (2,350,a), (2,450,b), (3,350,a), (3,400,b)
```

你之前思路的问题

你尝试两次GroupByKey的方式确实走了弯路，而且容易踩坑：

第一次按第一个元素分组后，再在组内对第三个元素分组，这种嵌套操作不仅代码冗余，还容易因为没正确处理Iterable迭代器导致数据丢失；
两次GroupByKey会触发两次Shuffle操作，性能远不如一次分组聚合。

最佳实践：用复合键一次分组聚合

其实核心思路很简单：把第一个整数和第三个标识组合成一个复合分组键，直接对这个键对应的数值求平均值，最后再按第一个整数排序即可。这样只需要一次分组，逻辑清晰还能提升性能。

代码示例（Spark Scala版）

import org.apache.spark.sql.SparkSession

object TupleAvgCalculator {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("TupleAverage")
      .master("local[*]")
      .getOrCreate()
    import spark.implicits._

    // 模拟输入数据
    val inputTuples = List(
      (1,200,"a"), (2,300,"a"), (1,300,"b"), (2,400,"a"), (2,500,"b"),
      (3,200,"a"), (3,400,"b"), (1,500,"a"), (2,400,"b"), (3,500,"a"), (1,200,"b")
    )

    val finalResult = inputTuples.toDF("first_num", "value", "tag")
      // 按复合键（第一个数+标识）分组，计算平均值
      .groupBy("first_num", "tag")
      .avg("value")
      // 重命名列，方便后续转换
      .withColumnRenamed("avg(value)", "average")
      // 按第一个数排序（也可以再加tag排序保证顺序一致）
      .orderBy("first_num", "tag")
      // 转换成预期的元组格式，这里把平均值转成整数
      .as[(Int, String, Double)]
      .map { case (num, tag, avg) => (num, avg.toInt, tag) }
      .collect()

    // 打印结果
    finalResult.foreach(println)
    spark.stop()
  }
}

代码示例（Spark Python版）

from pyspark.sql import SparkSession
from pyspark.sql.functions import avg

if __name__ == "__main__":
    spark = SparkSession.builder \
        .appName("TupleAverageCalculation") \
        .master("local[*]") \
        .getOrCreate()

    # 模拟输入数据
    input_data = [
        (1,200,"a"), (2,300,"a"), (1,300,"b"), (2,400,"a"), (2,500,"b"),
        (3,200,"a"), (3,400,"b"), (1,500,"a"), (2,400,"b"), (3,500,"a"), (1,200,"b")
    ]

    df = spark.createDataFrame(input_data, ["first_num", "value", "tag"])

    # 分组聚合+排序+转换格式
    result = df.groupBy("first_num", "tag") \
        .agg(avg("value").alias("average")) \
        .orderBy("first_num", "tag") \
        .rdd.map(lambda row: (row.first_num, int(row.average), row.tag)) \
        .collect()

    # 输出结果
    for item in result:
        print(item)

    spark.stop()

为什么这个方案更好？

逻辑简洁：直接用复合键把需要分组的维度合并，避免了嵌套分组的复杂操作；
性能更优：只触发一次Shuffle操作，比两次GroupByKey的效率高很多；
容错性强：用DataFrame API处理，Spark的Catalyst优化器会自动做性能调优，也减少了手动处理迭代器的出错概率。

内容的提问来源于stack exchange，提问作者Trotten

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，免费解锁 ArkClaw，7*24 小时在线的专属智能伙伴

一键部署 OpenClaw

分钟级部署，云服务器包月低至￥9.9，与 CodingPlan 组合购买仅需19.8元

Seedance2.0 体验中心上线

注册即享免费500万Tokens，抢先领略新一代AI视频技术跃迁

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠