使用Python从SQL Server抽取百万级数据插入Oracle数据库的高效加载方案咨询

阿华AIGC实验室

2026-4-29

嘿，针对你百万级数据从SQL Server迁移到Oracle慢到离谱的问题，我来给你拆解几个最快的方案——单条插1秒完全是没必要的开销，哪怕你的批量代码也还有优化空间，咱们优先从Oracle原生工具入手，这才是速度天花板：

最快方案：优先用Oracle原生批量加载工具

Oracle本身提供了专门针对大规模数据加载的原生工具，这些工具绕过了普通SQL的解析和网络开销，速度比Python的executemany快一个数量级，是首选方案。

1. SQL*Loader（最推荐，速度最快）

这是Oracle官方的高速数据加载工具，直接和数据库存储引擎交互，支持直接路径加载（跳过数据库缓冲区，直接写入数据文件），百万级数据通常几分钟就能搞定。步骤如下：

用SQL Server的bcp工具导出数据到文本文件（比如CSV），这比Python逐条读取SQL Server数据快得多：

bcp "SELECT col1, col2 FROM sqlserver_db.dbo.source_table" queryout data.csv -S sqlserver_host -U username -P password -c -t,

编写SQL*Loader的控制文件（比如load_data.ctl），定义数据格式和表映射：

LOAD DATA
INFILE 'data.csv'
BADFILE 'data.bad'
LOGFILE 'data.log'
INTO TABLE oracle_db.target_table
FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '"'
TRAILING NULLCOLS
(
    col1,
    col2
)

执行SQL*Loader命令，开启直接路径加载：
```
sqlldr oracle_username/oracle_password@oracle_service control=load_data.ctl direct=true
```
direct=true是关键，它会跳过Oracle的缓冲区和大部分redo日志（仅生成最小的undo），速度直接拉满。

2. Oracle External Tables（适合需要预处理数据的场景）

如果加载前需要对数据做SQL级别的清洗（比如过滤、转换），可以用外部表：把SQL Server导出的文本文件挂载成Oracle的外部表，然后用普通SQL插入，本质还是复用SQL*Loader的引擎，速度同样很快。
示例创建外部表的SQL：

CREATE TABLE external_source_table (
    col1 VARCHAR2(50),
    col2 NUMBER
)
ORGANIZATION EXTERNAL (
    TYPE ORACLE_LOADER
    DEFAULT DIRECTORY data_dir
    ACCESS PARAMETERS (
        RECORDS DELIMITED BY NEWLINE
        FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '"'
    )
    LOCATION ('data.csv')
)
PARALLEL 4; -- 并行加载加速

然后插入到目标表：

INSERT /*+ APPEND */ INTO target_table SELECT * FROM external_source_table;

如果你必须用Python实现（比如需要业务逻辑处理）

如果因为数据需要在Python中做自定义处理，无法用原生工具，那你的现有代码可以做以下优化：

增大批量大小：当前的batch_size=10000可以尝试调到50000甚至100000（根据Oracle的undo空间和内存调整），批量越大，事务提交的开销占比越低。
设置cx_Oracle的bindarraysize参数：这个参数控制一次发送到Oracle的行数，比默认的executemany更高效：
```
cursor.bindarraysize = 50000
cursor.executemany(query, recs, batcherrors=True)
```
使用直接路径插入提示：在INSERT语句前加/*+ APPEND */，让Oracle直接追加数据到表末尾，减少日志开销：
```
query = "INSERT /*+ APPEND */ INTO target_table (col1, col2) VALUES (:1, :2)"
```
并行处理：用Python的多进程（比如multiprocessing）从SQL Server并行拉取数据，然后并行批量插入Oracle（注意控制进程数，不要超过Oracle的最大连接数）。
关闭自动提交：确保conn.autocommit = False，避免隐式提交带来的额外开销。