PutDatabaseRecord处理器更新非常缓慢

1.调整流程：

添加一个FetchFile处理器，将要更新的记录数据先批量写入到文件中，以此减少与数据库的连接次数，从而提高更新的效率。在FetchFile之后添加一个PutDatabaseRecord处理器，以进行数据的更新。

2.优化数据库连接：

可以考虑将连接池的最大连接数进行调整，以满足并发更新的需求，同时缩短与数据库连接建立的时间。可以在PutDatabaseRecord处理器的属性中设置Connection Pool Service属性中同时连接的最大数目。

示例代码：

fetchfile:

①设置文件名和输出流的字符集

将文件批量导入：测试数据格式：AA,BB,CC\nAA1,BB1,CC1\n

putdatabaserecord:

①通过Controller Service连接数据库

②设置SQL语句和获取数据的列的映射。

Example SQL:

INSERT INTO mytable (col1, col2, col3) VALUES (?, ?, ?)

③将RecordReader结果集输出到Connection对象

Extension Availabilities Setting:

Connection Pool Service: 配置数据库的连接池，可以选择Reveal按钮修改配置
PutDatabaseRecord Connection : 可以选择通过已有的Connection或直接在PutDatabaseRecord中创建。具体方法见图示。
PutDatabaseRecord Processor Settings: 设置SQL语句和Record Reader。其中，SQL的参数使用?占位符，具体值通过Record Reader的值实现映射。

Result:

可在BrowseDatabase的信息中看到操作后的结果。

本文内容通过AI工具匹配关键字智能整合而成，仅供参考，火山引擎不对内容的真实、准确或完整作任何形式的承诺。如有任何问题或意见，您可以通过联系service@volcengine.com进行反馈，火山引擎收到您的反馈后将及时答复和处理。

展开更多

开发者特惠

面向开发者的云福利中心，ECS 60元/年，域名1元起，助力开发者快速在云上构建可靠应用

ECS首年60元

社区干货

### 前言在工作场景中,我们会采集工厂设备数据用于智能控制,数据的存储用了 InfluxDB,随着数据规模越来越大,InfluxDB 的性能越来越差,故考虑引入 ClickHouse 分担 InfluxDB 大数据分析的压力,再加上我们业务上也用... MySQL 是一个关系型数据库管理系统,由瑞典 MySQL AB 公司开发,属于 Oracle 旗下产品,是最流行的关系型数据库管理系统之一。它所使用的 SQL 语言是用于访问数据库的最常用标准化语言。它采用了双授权政策,分为社区版...

干货|字节跳动基于 Apache Hudi 的多流拼接实践

以及 KV 数据库中的维度数据。业务侧通常会基于实时计算引擎在流上做多个数据源的 JOIN 产出这个宽表,但这种解决方案在实践中面临较多挑战,主要可分为以下两种情况:## **1.1 维表 JOIN**- **场景挑战:** 指标... 而且存在 Cache 中维度数据没有及时更新,导致下游数据不准确的问题。## **1.2 多流 JOIN**- **场景挑战:** 多个指标数据进行关联,不同指标数据可能会出现时间差比较大的异常情况。- **当前方案:** 使用基...

字节跳动 EB 级 Iceberg 数据湖的机器学习应用与优化

> 深度学习的模型规模越来越庞大,其训练数据量级也成倍增长,这对海量训练数据的存储方案也提出了更高的要求:怎样更高性能地读取训练样本、不使数据读取成为模型训练的瓶颈,怎样更高效地支持特征工程、更便捷地增删... 非常缓慢。另外,当需要添加列或加特征时使用写时复制(Copy-On-Write)的方式会导致存储量翻倍,大幅增加成本负担的同时也会因为读写放大的本质导致不必要的计算资源开销。其次是通过**传统数据库方案**存放样本,这...

字节跳动基于 Apache Hudi 的多流拼接实践

特惠活动

域名注册服务

cn/top/com等热门域名，首年低至1元，邮箱建站必选

￥1.00/首年起32.00/首年起

立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗，加速分发更实惠

￥2.00/年20.00/年

立即购买

PutDatabaseRecord处理器更新非常缓慢 -优选内容

记一次 ClickHouse 性能测试

干货|字节跳动基于 Apache Hudi 的多流拼接实践

字节跳动 EB 级 Iceberg 数据湖的机器学习应用与优化

字节跳动基于 Apache Hudi 的多流拼接实践

PutDatabaseRecord处理器更新非常缓慢 -相关内容

基础使用

CREATE DATABASE hudi_dfs_db;USE hudi_dfs_db;CREATE TABLE `dfs_catalog`.`hudi_dfs_db`.`flink_hudi_mor_tbl`( uuid VARCHAR(20) PRIMARY KEY NOT ENFORCED, name VARCHAR(10), age INT, ts TIMESTAMP(3), `partition` VARCHAR(20))PARTITIONED BY (`partition`)WITH ( 'connector' = 'hudi', 'table.type' = 'MERGE_ON_READ', 'hoodie.datasource.write.recordkey.field' = 'uuid', 'precombine.field' = 'ts');3.2...

干货|Hudi Bucket Index 在字节跳动的设计与实践

Record Key 和 File Group/File ID 之间的这种映射关系,一旦在 Record 的第一个版本确定后,就永远不会改变。简而言之,包含一组记录的所有版本必然在同一个 File Group 中。在本文中,我们将重点介绍 Hudi 索引机制相关的作用和原理,以及优化实践。 # 1. **Hudi索引的作用与类型**## 1.1 索引的作用在传统 Hive 数仓的场景下,如果需要对一个分区数据做更新,整个更新过程会涉及三个很重的操作。举一个更直观的例子。假设一...

干货|Hudi Bucket Index 在字节跳动的设计与实践

Record Key 和 File Group/File ID 之间的这种映射关系,一旦在 Record 的第一个版本确定后,就永远不会改变。简而言之,包含一组记录的所有版本必然在同一个 File Group 中。在本文中,我们将重点介绍 Hudi 索引机制相关的作用和原理,以及优化实践。# Hudi 索引的作用与类型## 索引的作用在传统 Hive 数仓的场景下,如果需要对一个分区数据做更新,整个更新过程会涉及三个很重的操作。举一个更直观的例子。假设一个 Hive 分区...

域名注册服务

cn/top/com等热门域名，首年低至1元，邮箱建站必选

￥1.00/首年起32.00/首年起

立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗，加速分发更实惠

￥2.00/年20.00/年

立即购买

干货|Hudi Bucket Index 在字节跳动的设计与实践

把所有可能更新的分区的文件的 Bloom Filter 加载进来,用来判断 Record Key 是否存在 | 轻量级,默认的索引方式包含在数据文件的footer中。默认配置,不依赖外部系统,数据和索引保持一致性 || **HBase Index*... 借鉴了数据库里的 Hash Index。给定 n 个桶, 用 Hash 函数决定某个记录属于哪个桶。最终所有分区被分成 N 个桶,每个桶对应一个 File Group。相比较 Bloom Filter Index 来说,Hash Index 在逻辑层面提供了 Rec...

字节跳动 EB 级 Iceberg 数据湖的机器学习应用与优化

深度学习的模型规模越来越庞大,其训练数据量级也成倍增长,这对海量训练数据的存储方案也提出了更高的要求:怎样更高性能地读取训练样本、不使数据读取成为模型训练的瓶颈,怎样更高效地支持特征工程、更便捷地增删和... 非常缓慢。另外,当需要添加列或加特征时使用写时复制(Copy-On-Write)的方式会导致存储量翻倍,大幅增加成本负担的同时也会因为读写放大的本质导致不必要的计算资源开销。其次是通过 **传统数据库方案** 存放样...

字节跳动实时数据湖构建的探索和实践

主要用于将在线数据库导入到离线数仓,和不同数据源之间的批式传输。在2020年,我们基于Flink构造了MQ-Hive的实时数据集成通道,主要用于将消息队列中的数据实时写入到Hive和HDFS,在计算引擎上做到了流批统一。到... 由于Hive不支持更新操作,我们依旧使用了一条基于Spark的批处理链路,通过T-1增量合并的方式,将前一天的Hive表和新增的Binlog进行合并从而产出当天的Hive表。随着业务的快速发展,这条链路暴露出来的问题也越来越多...

通过 Kafka 消费火山引擎 Proto 格式的订阅数据

数据库传输服务 DTS 的数据订阅服务支持使用 Kafka 客户端消费火山引擎 Proto 格式的订阅数据。本文以订阅云数据库 MySQL 版实例为例,介绍如何使用 Go、Java 和 Python 语言消费 Canal 格式的数据。前提条件已注册... database:"test" table:"demo" ddl_event:{sql:"create table demo (id_t int)"}Java语言 ConsumerRecord(topic = d73e98e7fa9340faa3a0d4ccfa10****, partition = 0, leaderEpoch = 0, offset = 117, CreateTime...

性能白皮书

数据库版本均为 MongoDB 4.0。测试所用 ECS 实例: ECS 配置:4 个规格为 4vCPU、32GiB 规格的内存型 ECS 实例(规格码ecs.r1.xlarge)。操作系统版本:Debian 10/64 位。测试工具本测试中使用的工具为 YCSB。YCSB 是一款由 Java 语言实现的支持多种数据库的性能测试工具,具体安装和使用方法请参见 YCSB。测试命令本测试中使用了如下命令进行性能测试: 修改 workloada 配置中的 recordcount、operationcount、readproportion 和...

Hudi Bucket Index 在字节跳动的设计与实践

Record Key和 File Group/File ID 之间的这种映射关系,一旦在 Record 的第一个版本确定后,就永远不会改变。简而言之,包含一组记录的所有版本必然在同一个 File Group 中。在本文中,我们将重点介绍 Hudi 索引机制相关的作用和原理,以及优化实践。 # **Hudi 索引的作用与类型**## 索引的作用在传统 Hive 数仓的场景下,如果需要对一个分区数据做更新,整个更新过程会涉及三个很重的操作。举一个更直观的例子。假设一个 Hiv...

特惠活动

域名注册服务

cn/top/com等热门域名，首年低至1元，邮箱建站必选

￥1.00/首年起32.00/首年起

立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗，加速分发更实惠

￥2.00/年20.00/年

立即购买

PutDatabaseRecord处理器更新非常缓慢

开发者特惠

社区干货

记一次 ClickHouse 性能测试

干货|字节跳动基于 Apache Hudi 的多流拼接实践

字节跳动 EB 级 Iceberg 数据湖的机器学习应用与优化

字节跳动基于 Apache Hudi 的多流拼接实践

特惠活动

热门爆款云服务器

域名注册服务

DCDN国内流量包100G

PutDatabaseRecord处理器更新非常缓慢 -优选内容

PutDatabaseRecord处理器更新非常缓慢 -相关内容

基础使用

干货|Hudi Bucket Index 在字节跳动的设计与实践

干货|Hudi Bucket Index 在字节跳动的设计与实践

热门爆款云服务器

域名注册服务

DCDN国内流量包100G

干货|Hudi Bucket Index 在字节跳动的设计与实践

字节跳动 EB 级 Iceberg 数据湖的机器学习应用与优化

字节跳动实时数据湖构建的探索和实践

通过 Kafka 消费火山引擎 Proto 格式的订阅数据

性能白皮书

Hudi Bucket Index 在字节跳动的设计与实践

特惠活动

热门爆款云服务器

域名注册服务

DCDN国内流量包100G

产品体验

体验中心

云服务器特惠

白皮书

相关主题

最新活动

爆款1核2G共享型服务器

火山引擎增长体验专区

数据智能VeDI

热门访问

一键开启云上增长新空间