如何将Amazon Athena中的表迁移至Amazon Redshift？

阿华AIGC实验室

2026-5-6

从Amazon Athena迁移表到Amazon Redshift的优化方案

针对你的场景（3张基于S3 JSON的Athena基础表 + 2张衍生表），确实有比“导出JSON到S3再COPY”更高效的方案，下面按实用度和场景分类说明：

方案1：Redshift联邦查询（Federated Query）直接读取Athena表

这是最直接的方案，不需要中间存储，直接在Redshift中查询Athena的表并导入本地表，尤其适合衍生表的迁移（因为衍生表本身就是Athena的计算结果）。

步骤：

配置权限：确保Redshift集群使用的IAM角色拥有访问Athena以及Athena底层S3数据桶的权限（需要AmazonAthenaFullAccess和对应的S3读写权限）。
创建Athena外部数据源：在Redshift中执行：

CREATE EXTERNAL DATA SOURCE athena_data_source
FROM ATHENA
IAM_ROLE 'arn:aws:iam::你的账号ID:role/RedshiftAthena访问角色'
DATABASE '你的Athena数据库名';

创建外部Schema映射Athena数据库：

CREATE EXTERNAL SCHEMA athena_schema
FROM EXTERNAL DATA SOURCE athena_data_source;

导入数据到Redshift本地表：

如果是新建表：

CREATE TABLE redshift_target_table AS
SELECT * FROM athena_schema.your_athena_table;

如果表已存在，追加数据：

INSERT INTO redshift_target_table
SELECT * FROM athena_schema.your_athena_table;

优缺点：

✅ 无需中间存储，操作步骤最少
✅ 实时性好，适合一次性迁移或小批量增量同步
❌ 数据量极大时，跨服务查询可能有性能瓶颈（取决于Athena的查询速度和Redshift的网络带宽）

方案2：使用AWS Glue ETL进行迁移与转换

如果你的数据需要清洗、格式转换（比如扁平化JSON嵌套结构），或者需要定期自动同步，Glue是更合适的选择。它可以直接对接Athena/S3数据源和Redshift目标。

步骤：

配置Glue数据源：
- 对于Athena基础表：可以直接添加S3数据源（指向原JSON文件所在的桶路径），或者添加Athena数据源（直接关联Athena的表）。
- 对于衍生表：可以通过Glue的Spark作业直接执行Athena的查询逻辑，或者读取Athena的查询结果。

创建Glue Job：

选择Python/Scala编写ETL脚本，示例逻辑：

import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job

args = getResolvedOptions(sys.argv, ['JOB_NAME'])
sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
job = Job(glueContext)
job.init(args['JOB_NAME'], args)

# 读取Athena表数据（或S3 JSON数据）
datasource = glueContext.create_dynamic_frame.from_catalog(
    database="your_athena_db",
    table_name="your_athena_table"
)

# 可选：数据转换（比如扁平化嵌套JSON）
transformed_data = datasource.resolveChoice(specs=[("nested_field", "cast:struct")])

# 写入Redshift
glueContext.write_dynamic_frame.from_jdbc_conf(
    frame=transformed_data,
    catalog_connection="your_redshift_connection",
    connection_options={
        "dbtable": "redshift_target_table",
        "database": "redshift_db"
    },
    redshift_tmp_dir="s3://your-bucket/glue-temp/"
)

job.commit()

调度Job：设置定时触发，实现定期同步。

优缺点：

✅ 支持复杂ETL逻辑，适合需要数据清洗、格式转换的场景
✅ 可自动化调度，适合增量同步或定期迁移
❌ 配置和开发成本略高，需要熟悉Glue Spark作业

方案3：优化版导出+COPY（用列式存储替代JSON）

如果坚持用导出+COPY的思路，建议将Athena数据导出为Parquet/ORC格式（列式存储），而非JSON，因为Redshift对列式存储的加载效率远高于JSON，且压缩比更高，节省存储和传输成本。

步骤：

在Athena中导出数据到S3（Parquet格式）：
```
INSERT INTO OUTFILE 's3://your-bucket/migration/derived-table/'
FORMAT PARQUET
WITH (compression='snappy')
SELECT * FROM your_derived_athena_table;
```
（基础表可以直接用原S3 JSON文件，或者也转成Parquet后再COPY，提升加载速度）

Redshift中COPY数据：

COPY redshift_target_table
FROM 's3://your-bucket/migration/derived-table/'
IAM_ROLE 'arn:aws:iam::你的账号ID:role/RedshiftS3访问角色'
FORMAT AS PARQUET;

优缺点：

✅ 加载速度比JSON快数倍，适合大数据量迁移
✅ 压缩后占用S3存储空间更小
❌ 需要额外的导出步骤，不如联邦查询直接

场景总结

一次性迁移+数据量小：优先选联邦查询
需要定期同步+数据转换：选Glue ETL
超大批量数据迁移：选Parquet导出+COPY

内容的提问来源于stack exchange，提问作者tikirin tukurun

火山引擎最新活动

方舟 Coding Plan

HOT

模型自由，工具不限，免费解锁 ArkClaw，7*24 小时在线的专属智能伙伴

查看详情

一键部署 OpenClaw

分钟级部署，云服务器包月低至￥9.9，与 CodingPlan 组合购买仅需19.8元

查看详情

Seedance2.0 体验中心上线

注册即享免费500万Tokens，抢先领略新一代AI视频技术跃迁

查看详情

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠

查看详情

ArkClaw 专属智能伙伴