You need to enable JavaScript to run this app.
最新活动
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

由于您正在使用适用于Spark3.1的连接器与Spark3.2.1配合使用,因此不支持查询下推

如果需要在 Spark 3.2.1 中使用已经设计为 Spark 3.1 连接器的查询下推功能,有两种解决方法。首先可以升级连接器,以便支持 Spark 3.2.1。其次,可以禁用查询下推,这没问题,但需要付出性能损失。

在代码中禁用查询下推示例代码:

val spark = SparkSession.builder()
        .appName("ExampleApp")
        .config("spark.sql.adaptive.enabled", "true")
        .config("spark.sql.adaptive.join.enabled", "true")
        .config("spark.sql.adaptive.skewedJoin.enabled", "true")
        .config("spark.sql.adaptive.localShuffleReader.enabled", "true")
        .config("spark.sql.adaptive.coalescePartitions.enabled", "true")
        .config("spark.sql.adaptive.coalescePartitions.initialPartitionNum", "100")
        .config("spark.sql.legacy.timeParserPolicy", "legacy")
        .config("spark.sql.sources.orc.impl", "native")
        .config("spark.sql.sources.partitionOverwriteMode", "dynamic")
        .config("hive.exec.dynamic.partition", "true")
        .config("hive.exec.dynamic.partition.mode", "nonstrict")
        .config("hive.enforce.bucketing", "true")
        .enableHiveSupport()
        .getOrCreate()

spark.conf.set("spark.sql.cbo.enabled", "true")
spark.conf.set("spark.sql.planChangeLog.level", "info")
spark.conf.set("spark.sql.adaptive.localShuffleReader.fetchDataRetries", "1")
spark.conf.set("spark.sql.adaptive.localShuffleReader.fetchDataRetries.enabled", "true")
spark.conf.set("spark.sql.adaptive.localShuffleReader.maxNumBlocksToReadInBatch", "1024")
spark.conf.set("spark.sql.autoBroadcastJoinThreshold", "-1")

spark.conf.set("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension")
spark.conf.set("spark.delta.logStore.class", "org.apache.spark.sql.delta.storage.HDFSLogStore")
本文内容通过AI工具匹配关键字智能整合而成,仅供参考,火山引擎不对内容的真实、准确或完整作任何形式的承诺。如有任何问题或意见,您可以通过联系service@volcengine.com进行反馈,火山引擎收到您的反馈后将及时答复和处理。
展开更多
面向开发者的云福利中心,ECS 60元/年,域名1元起,助力开发者快速在云上构建可靠应用

社区干货

万字长文,Spark 架构原理和 RDD 算子详解一网打进! | 社区征文

### 1.1 Spark架构核心组件![在这里插入图片描述](https://img-blog.csdnimg.cn/20200103141006910.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0... RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。### 2.2 RDD具体包含了一些什么东西?RDD是一个类,它包含了**数据应该在哪算,具体该怎么算,算完了放...

干货|字节跳动数据技术实战:Spark性能调优与功能升级

=&rk3s=8031ce6d&x-expires=1715012444&x-signature=BLRpqSx6jJNZahoC3rA8ily3%2B10%3D) LAS Spark紧跟技术前沿, **目前已经从Spark2.3全面升级到了Spark3.0,** 并且接下来会进一步升级到Spark3.2。从社... 以此提升查询性能。当然为了避免引入额外损耗,仅适用于部分Join场景。 如下图所示,两表Join,左表数据量较大,右表数据量较少,则可以提前将右表join key读取出来,在左表动态生成一个Filter算子,其效果相当...

干货 | 在字节跳动,一个更好的企业级SparkSQL Server这么做

SparkSQL可直接输入SQL对数据进行ETL等工作的处理,极大提升了易用度。但是相比Hive等引擎来说,由于SparkSQL缺乏一个类似Hive Server2的SQL服务器,导致SparkSQL在易用性上比不上Hive。很多时候,SparkSQL只能将自身SQL作业打包成一个Jar,进行spark-submit命令提交,因而大大降低Spark的易用性。除此之外,还可使用周边工具,如Livy,但Livy更像一个Spark 服务器,而不是SparkSQL服务器,因此无法支持类似BI工具或者JDBC这样的标准接口进...

字节跳动 Spark Shuffle 大规模云原生化演进实践

## 背景Spark 是字节跳动内部使用广泛的计算引擎,已广泛应用于各种大规模数据处理、机器学习和大数据场景。目前中国区域内每天的任务数已经超过 150 万,每天的 Shuffle 读写数据量超过 500 PB。同时某些单个任务... 这将产生 M 乘 R 级别的网络连接和随机的磁盘读写 IO,涉及到大量的磁盘读写和网络传输。这就是为什么 Shuffle 会对磁盘以及网络 IO 的请求都特别频繁的原因。由于 Shuffle 对资源的需求和消耗都非常高,所以 CPU、...

特惠活动

热门爆款云服务器

100%性能独享,更高内存性能更佳,学习测试、web前端、企业应用首选,每日花费低至0.55元
60.00/1212.00/年
立即购买

域名注册服务

cn/top/com等热门域名,首年低至1元,邮箱建站必选
1.00/首年起32.00/首年起
立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗,加速分发更实惠
2.00/20.00/年
立即购买

由于您正在使用适用于Spark3.1的连接器与Spark3.2.1配合使用,因此不支持查询下推 -优选内容

进阶使用
1.2 历史版本查询Spark SQL 方式 sql -- 根据时间戳查询历史版本SELECT * FROM table_name TIMESTAMP AS OF timestamp_expression-- 根据版本号查询历史版本SELECT * FROM table_name VERSION AS OF versionSpark ... (spark, pathToTable) 查询表属性明细detailDF = deltaTable.detail()3 表管理3.1 清理过期数据3.1.1 Delta Lake 的保存期机制 Delta Lake 有历史版本回溯的功能,它记录了所有的针对表的修改动作。每一次的表更改都...
万字长文,Spark 架构原理和 RDD 算子详解一网打进! | 社区征文
### 1.1 Spark架构核心组件![在这里插入图片描述](https://img-blog.csdnimg.cn/20200103141006910.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0... RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。### 2.2 RDD具体包含了一些什么东西?RDD是一个类,它包含了**数据应该在哪算,具体该怎么算,算完了放...
干货|字节跳动数据技术实战:Spark性能调优与功能升级
=&rk3s=8031ce6d&x-expires=1715012444&x-signature=BLRpqSx6jJNZahoC3rA8ily3%2B10%3D) LAS Spark紧跟技术前沿, **目前已经从Spark2.3全面升级到了Spark3.0,** 并且接下来会进一步升级到Spark3.2。从社... 以此提升查询性能。当然为了避免引入额外损耗,仅适用于部分Join场景。 如下图所示,两表Join,左表数据量较大,右表数据量较少,则可以提前将右表join key读取出来,在左表动态生成一个Filter算子,其效果相当...
干货 | 在字节跳动,一个更好的企业级SparkSQL Server这么做
SparkSQL可直接输入SQL对数据进行ETL等工作的处理,极大提升了易用度。但是相比Hive等引擎来说,由于SparkSQL缺乏一个类似Hive Server2的SQL服务器,导致SparkSQL在易用性上比不上Hive。很多时候,SparkSQL只能将自身SQL作业打包成一个Jar,进行spark-submit命令提交,因而大大降低Spark的易用性。除此之外,还可使用周边工具,如Livy,但Livy更像一个Spark 服务器,而不是SparkSQL服务器,因此无法支持类似BI工具或者JDBC这样的标准接口进...

由于您正在使用适用于Spark3.1的连接器与Spark3.2.1配合使用,因此不支持查询下推 -相关内容

字节跳动 MapReduce - Spark 平滑迁移实践

Spark 申请到的 Container 作为 Executor 不会在跑完一个 Task 后推出,而是由 Spark 框架调度新的 Task 上来继续使用。第二个原因是 **MapReduce 的 Shuffle 性能非常差** 。内部使用的 MapReduce 是基于社区的2.6版本,它的 Shuffle 实现依赖的 Netty 框架大概是十年前的版本,与当前的 Netty 相比差了一个大版本,在实际使用中也会发现它的性能比较差,而且也会在物理机创建过多的连接,影响物理机的稳定性。第三个原因是...

干货 | 在字节跳动,一个更好的企业级SparkSQL Server这么做

SparkSQL可直接输入SQL对数据进行ETL等工作的处理,极大提升了易用度。但是相比Hive等引擎来说,由于SparkSQL缺乏一个类似Hive Server2的SQL服务器,导致SparkSQL在易用性上比不上Hive。很多时候,SparkSQL只能将自身SQL作业打包成一个Jar,进行spark-submit命令提交,因而大大降低Spark的易用性。除此之外,还可使用周边工具,如Livy,但Livy更像一个Spark 服务器,而不是SparkSQL服务器,因此无法支持类似BI工具或者JDBC这样的标准接口...

字节跳动 Spark Shuffle 大规模云原生化演进实践

=&rk3s=8031ce6d&x-expires=1715012454&x-signature=hrieJyNPx3vVJ4IxD1lrjGMPag0%3D)作者|字节跳动计算引擎开发工程师-程航Spark 是字节跳动内部使用广泛的计算引擎,已广泛应用于各种**大规模数据处理**... 这将产生 M 乘 R 级别的网络连接和随机的磁盘读写 IO,涉及到大量的磁盘读写和网络传输。这就是为什么 Shuffle 会对磁盘以及网络 IO 的请求都特别频繁的原因。由于 Shuffle 对资源的需求和消耗都非常高,所以 ...

热门爆款云服务器

100%性能独享,更高内存性能更佳,学习测试、web前端、企业应用首选,每日花费低至0.55元
60.00/1212.00/年
立即购买

域名注册服务

cn/top/com等热门域名,首年低至1元,邮箱建站必选
1.00/首年起32.00/首年起
立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗,加速分发更实惠
2.00/20.00/年
立即购买

字节跳动 MapReduce - Spark 平滑迁移实践

Spark 申请到的 Container 作为 Executor 不会在跑完一个 Task 后推出,而是由 Spark 框架调度新的 Task 上来继续使用。第二个原因是 **MapReduce 的 Shuffle 性能非常差** 。内部使用的 MapReduce 是基于社区的2.6版本,它的 Shuffle 实现依赖的 Netty 框架大概是十年前的版本,与当前的 Netty 相比差了一个大版本,在实际使用中也会发现它的性能比较差,而且也会在物理机创建过多的连接,影响物理机的稳定性。第三个原因是...

揭秘|UIService:字节跳动云原生 Spark History 服务

前端会从`KVStore`查询所需的对象,实现页面的渲染。 ## 1.2 **痛点**### **1.2.1 存储空间开销大**Spark 事件体系非常详细,导致 event log 记录的事件数量非常大,对于 UI 显示来说,大部分 event 是无用的。并且 event log 一般使用 json 明文存储,空间占用较大。对于比较复杂或时间长的任务,event log 可以达到几十GB。**字节内部 7 天的 event log 占用约 3.2 PB 的 HDFS 存储空间。**### **1.2.2 回放效率差,延迟高*...

在字节跳动,一个更好的企业级 SparkSQL Server 这么做

因此我们往往通过维护一个存有多个connection的连接池,将connection的创建与使用分开以提升性能,因而也衍生出很多数据库连接池,例如C3P0,DBCP等。# **3. Hive 的 JDBC 实现**构建SparkSQL服务器最好的方式是用如上Java接口,且大数据生态下行业已有标杆例子,即Hive Server2。Hive Server2在遵循Java JDBC接口规范上,通过对数据操作的方式,实现了访问Hive服务。除此之外,Hive Server2在实现上,与MySQL等关系型数据稍有不同。首...

字节跳动云原生 Spark History 服务的实现与优化

KVStore是 Spark 中基于内存的KV存储,可以存储任意的类实例。前端会从KVStore查询所需的对象,实现页面的渲染。**痛点**1. **存储空间开销大** Spark 事件体系非常详细,导致 event log 记录的事件数量非常大,对于UI显示来说,大部分 event 是无用的。并且 event log 一般使用 json 明文存储,空间占用较大。对于比较复杂或时间长的任务,event log 可以达到几十GB。 **字节内部7天的 event log 占用约 3.2 PB 的 HDF...

干货|字节跳动EMR产品在Spark SQL的优化实践

由于Iceberg 0.12版本不支持Spark 3.2,由于升级Spark的影响范围非常大,于是更新了Iceberg,**使用了社区的一个master的snapshot版本进行编译,与Spark 3.2进行集成。**EMR **Spark SQL服务器**------------------虽然行业针对Spark SQL 提供一个SQL 服务器已经有Spark Thrift Server或者Kyuubi这样的工具,但是在某些B端客户的业务的背景下,这些工具并不能完全满足要求,因此 **字节跳动EMR团队自己...

干货 | 提速 10 倍!源自字节跳动的新型云原生 Spark History Server正式发布

会给历史服务器带来沉重的负担。接下来,火山引擎 LAS 团队将向大家详细介绍字节跳动内部是怎么基于 UIMeta 实现海量数据业务的平稳和高效运转,让技术驱动业务不断发展。# **1. 业务背景**## 1.1 开源 Spark Hi... **字节内部 7 天的 event log 占用约 3.2** **PB** **的** **HDFS** **存储空间。**- #### **回放效率差,延迟高**History Server 采用回放解析 event log 的方式还原 Spark UI,有大量的计算开销,当任务较大就...

特惠活动

热门爆款云服务器

100%性能独享,更高内存性能更佳,学习测试、web前端、企业应用首选,每日花费低至0.55元
60.00/1212.00/年
立即购买

域名注册服务

cn/top/com等热门域名,首年低至1元,邮箱建站必选
1.00/首年起32.00/首年起
立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗,加速分发更实惠
2.00/20.00/年
立即购买

产品体验

体验中心

云服务器特惠

云服务器
云服务器ECS新人特惠
立即抢购

白皮书

一图详解大模型
浓缩大模型架构,厘清生产和应用链路关系
立即获取

最新活动

爆款1核2G共享型服务器

首年60元,每月仅需5元,限量秒杀
立即抢购

火山引擎增长体验专区

丰富能力激励企业快速增长
查看详情

数据智能VeDI

易用的高性能大数据产品家族
了解详情

一键开启云上增长新空间

立即咨询