以及Spark/Presto多个计算引擎,其中LAS Spark作为高效的批式计算引擎,字节内部日均处理EB级数据,全覆盖离线ETL场景。 ![picture.image](https://p6-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82o... 需要读取整个文件数据。 为此,我们引入LocalSort。Spark引擎会在数据写入Parquet文件之前基于指定字段做一次本地排序,这样能将数据分布更加紧凑,最大发挥出Parquet Footer中 min/max等索引的。如下右图,经...