PostgreSQL跨库复制部分表数据并同步序列的方法

阿华AIGC实验室

2026-5-19

解决PostgreSQL部分表数据迁移+序列同步问题

这个问题我之前处理过好几次，刚好有几个靠谱的方案分享给你，核心思路是拆分操作：先迁移符合条件的部分数据，再单独同步序列的当前值，毕竟pg_dump的全表导出和自定义查询导出各有局限，得结合起来用。

前提确认

首先你已经用pg_dump -s -d source_db -f schema.sql把源库的架构（包括表结构、序列、约束等）导入到目标库了，确保目标库的表和序列和源库完全一致，这一步是基础。

方案一：分步骤导出数据+手动同步序列

适合需要生成中间SQL文件，或者源库和目标库无法直接网络连通的场景。

1. 导出指定表的部分数据

用pg_dump的--data-only（只导出数据）+--where（筛选条件）参数，精准导出你需要的部分数据，不会带整表内容，也不会导出架构（因为你已经提前导过了）：

# 替换source_db、table1和your_condition为实际值
pg_dump -d source_db --data-only -t table1 --where "created_at >= '2024-01-01'" -f table1_partial_data.sql

比如这里我筛选了2024年1月1日之后的数据，你可以换成任何符合业务需求的WHERE条件。

2. 将部分数据导入目标库

用psql执行生成的SQL文件即可：

psql -d target_db -f table1_partial_data.sql

3. 同步序列值

这一步是关键，要确保目标库的序列下一次生成的值不会和已导入的数据冲突，同时和源库的序列进度对齐：

先在源库中找到对应表的序列名（如果不确定的话）：

-- 替换table1和id为你的表名和主键列名
SELECT pg_get_serial_sequence('table1', 'id');

假设返回的序列名是table1_id_seq。

接着在源库中获取序列的当前值：

SELECT currval('table1_id_seq');

最后在目标库中更新序列值，取「目标表中最大主键值+1」和「源库序列当前值」的较大值，避免两种场景的冲突：

SELECT setval('table1_id_seq', GREATEST( (SELECT MAX(id) FROM table1) + 1, 12345 ) );

把12345替换成你从源库拿到的序列当前值。如果导入的部分数据为空，直接用源库的当前值即可。

方案二：用dblink直接跨库迁移（更高效）

如果源库和目标库可以通过网络直接访问，推荐用这个方法，不用生成中间文件，一步完成数据迁移+序列同步。

1. 确保目标库安装dblink扩展

dblink是PostgreSQL的跨库连接扩展，先在目标库中启用：

CREATE EXTENSION IF NOT EXISTS dblink;

2. 跨库插入部分数据

在目标库的psql会话中，直接从源库拉取符合条件的数据插入：

-- 替换连接字符串、列名、表名和筛选条件
INSERT INTO table1 (id, name, created_at)
SELECT id, name, created_at
FROM dblink(
  'dbname=source_db user=your_username password=your_password host=source_host port=5432',
  'SELECT id, name, created_at FROM table1 WHERE id < 1000'
) AS source_table (id INT, name VARCHAR(100), created_at TIMESTAMP);

注意要保证源表和目标表的列名、数据类型完全匹配。

3. 自动同步序列

插入完成后，直接在目标库中执行以下SQL，自动把序列设置为合适的值：

SELECT setval(
  'table1_id_seq',
  GREATEST( (SELECT MAX(id) FROM table1) + 1, (SELECT currval(pg_get_serial_sequence('table1', 'id')) FROM dblink('dbname=source_db', 'SELECT currval(pg_get_serial_sequence(''table1'', ''id''))') AS s(val INT)) ),
  (SELECT COUNT(*) FROM table1) > 0
);

这段SQL会自动从源库拉取序列当前值，和目标表的最大主键值对比，取较大的那个作为序列的新值，第三个参数(SELECT COUNT(*) FROM table1) > 0用来判断是否有数据插入，如果有，setval的is_called参数设为true，下一次nextval会返回正确的递增后的值。

批量处理多个表的小技巧

如果要处理多个表，可以写个简单的bash脚本循环处理，比如：

#!/bin/bash
SOURCE_DB="source_db"
TARGET_DB="target_db"
# 替换成你要处理的表列表
TABLES=("table1" "table2" "table3")
PRIMARY_KEY="id"

for TABLE in "${TABLES[@]}"
do
  echo "Processing table: $TABLE"
  # 导出部分数据
  pg_dump -d $SOURCE_DB --data-only -t $TABLE --where "id < 2000" -f "${TABLE}_partial.sql"
  # 导入数据到目标库
  psql -d $TARGET_DB -f "${TABLE}_partial.sql"
  # 获取序列名
  SEQ_NAME=$(psql -d $SOURCE_DB -t -c "SELECT pg_get_serial_sequence('$TABLE', '$PRIMARY_KEY');" | tr -d ' ')
  # 获取源库序列当前值
  SOURCE_CURRVAL=$(psql -d $SOURCE_DB -t -c "SELECT currval('$SEQ_NAME');" | tr -d ' ')
  # 更新目标库序列
  psql -d $TARGET_DB -c "SELECT setval('$SEQ_NAME', GREATEST( (SELECT MAX($PRIMARY_KEY) FROM $TABLE) + 1, $SOURCE_CURRVAL ) );"
  # 删除临时SQL文件
  rm "${TABLE}_partial.sql"
done