如何自动向Amazon Redshift上传数据？加载与提交相关技术疑问

阿华AIGC实验室

2026-5-20

嘿，很高兴能帮到你！针对你要自动向Amazon Redshift上传数据的需求，我来给你梳理清楚可用的工具和具体操作步骤：

一、可用的Python模块

Redshift基于PostgreSQL生态，有几个成熟的模块可以直接用：

psycopg2：最经典的PostgreSQL Python驱动，Redshift兼容绝大多数PostgreSQL语法，用它连接和操作完全没问题。
redshift-connector：AWS官方推出的Redshift专用连接器，针对Redshift做了优化，还支持IAM认证等Redshift特有的功能，推荐优先考虑这个。

二、数据加载与提交操作

根据数据量的不同，有两种常用的加载方式，都需要用到你提到的commit操作，我分别给你举例：

1. 单条/小批量数据：INSERT + 手动提交

如果是少量数据更新，用常规的INSERT语句就可以，关键是执行完后要手动提交事务，否则数据不会写入表中。

以redshift-connector为例，代码示例：

import redshift_connector

# 建立Redshift连接
conn = redshift_connector.connect(
    host='你的Redshift集群端点',
    database='你的数据库名',
    user='用户名',
    password='密码',
    port=5439
)

# 创建游标对象
cur = conn.cursor()

try:
    # 执行INSERT语句（可以循环插入多条）
    cur.execute("INSERT INTO 你的表名 (列1, 列2) VALUES (%s, %s)", ('值1', '值2'))
    
    # 核心的commit操作：提交事务，确认数据写入
    conn.commit()
    print("数据插入并提交成功！")
except Exception as e:
    # 如果出错，回滚事务，避免脏数据
    conn.rollback()
    print(f"插入失败，已回滚：{str(e)}")
finally:
    # 记得关闭游标和连接
    cur.close()
    conn.close()

如果用psycopg2，连接代码略有不同，但后续的cursor、execute、commit逻辑完全一致：

import psycopg2

conn = psycopg2.connect(
    host='你的Redshift集群端点',
    dbname='你的数据库名',
    user='用户名',
    password='密码',
    port=5439
)
# 后续操作和上面的redshift-connector示例一样

划重点：Redshift默认是手动提交模式，所以执行INSERT/UPDATE/DELETE这类修改数据的操作后，必须调用conn.commit()，否则关闭连接时事务会自动回滚，之前的操作等于白做。

2. 大批量数据：COPY命令（强烈推荐）

Redshift是数据仓库，天生适合批量处理数据，用COPY命令加载数据的效率比逐条INSERT高几个量级。通常步骤是先把数据上传到S3（如果是本地数据的话），再用COPY命令从S3加载到Redshift表。

示例代码（还是用redshift-connector）：

import redshift_connector

conn = redshift_connector.connect(
    host='你的Redshift集群端点',
    database='你的数据库名',
    user='用户名',
    password='密码',
    port=5439
)
cur = conn.cursor()

try:
    # 假设你的数据已经上传到S3的s3://你的存储桶/数据文件路径.csv
    copy_query = """
        COPY 你的表名 (列1, 列2)
        FROM 's3://你的存储桶/数据文件路径.csv'
        IAM_ROLE 'arn:aws:iam::你的AWS账号ID:role/Redshift访问S3的角色'
        CSV
        IGNOREHEADER 1  # 如果CSV有表头的话忽略第一行
        DELIMITER ',';
    """
    cur.execute(copy_query)
    # 同样需要commit来确认加载操作
    conn.commit()
    print("批量数据加载成功！")
except Exception as e:
    conn.rollback()
    print(f"加载失败，已回滚：{str(e)}")
finally:
    cur.close()
    conn.close()

小贴士：COPY命令需要Redshift有访问S3的权限，用IAM角色配置是最安全的方式，不用在代码里暴露AWS密钥。

三、关键提醒

所有修改数据的操作（INSERT/UPDATE/DELETE/COPY）都需要conn.commit()来收尾，否则不会持久化到表中；出错时一定要用conn.rollback()回滚，避免留下脏数据。
数据量较大时，一定要用COPY命令，别用循环INSERT，不然性能会差到离谱。
如果需要用到Redshift专属功能（比如IAM认证、临时凭证），优先选redshift-connector；常规操作的话，psycopg2完全够用。

内容的提问来源于stack exchange，提问作者OHS Catalog Deduplication