Spark中文件块如何在多节点并行处理？附程序示例与技术疑问

阿华AIGC实验室

2026-5-13

Spark 工作流程与Task相关问题解答

示例程序

val text = sc.textFile("file_from_local_system.txt");// or file can also be on hdfs
val counts = text.flatMap(line => line.split(" ") ).map(word => (word,1)).reduceByKey(_+_)
counts.collect

你的理解是否正确？

你的理解大体是对的，但有个关键细节需要补充：Driver程序并不是一开始就计算Job、Stage和Task的。Spark采用惰性求值的机制，在你执行textFile、flatMap、map、reduceByKey这些转换操作时，Driver只会构建RDD的血统图（Lineage Graph），记录每个RDD的依赖关系。只有当遇到collect这种action操作时，Driver才会触发Job的生成，接着根据RDD的依赖关系（按宽依赖划分Stage），最终生成一个个可并行执行的Task，之后再向集群管理器（比如Spark Standalone、YARN）请求资源，将Task分配到对应的Executor上执行。

技术问询解答

1. Driver构建血统图时是否已获取文件存储块数量？

是的。当你调用sc.textFile()时，Spark会立即与底层存储系统（不管是本地文件系统还是HDFS）交互，获取文件的元数据信息：

如果是HDFS，它会读取HDFS NameNode上的文件块（Block）信息，包括文件被分割成多少个Block、每个Block的大小（默认128MB）；
如果是本地文件系统，Spark会根据文件大小和默认的分区大小（也可以通过textFile的第二个参数指定）来计算分区数量，而分区数量通常对应文件的物理块数量（或者逻辑分割的块数）。

这些信息会被用来创建对应的FileRDD（或HadoopRDD），而RDD的分区数量直接对应后续可并行执行的Task数量——每个分区对应一个Task。这个过程是在构建血统图的阶段完成的，因为RDD的分区信息是血统图的核心组成部分。

2. Task内部是否包含各块地址以实现多节点并行执行？

没错。每个Task都会绑定到一个具体的RDD分区，而这个分区对应的文件块地址（比如HDFS中Block所在的DataNode节点地址、本地文件的路径）会被包含在Task的元数据中。当集群管理器将Task分配到Executor后，Executor可以根据Task中的块地址信息，优先在本地节点读取数据（利用数据本地性），如果本地没有对应数据，再从其他节点拉取，这样就能高效实现多节点的并行执行，避免大量跨节点的数据传输开销。

内容的提问来源于stack exchange，提问作者emilly