Snowflake查询结果保存至S3 Bucket为非压缩XLSX文件的技术问题

阿华AIGC实验室

2026-4-30

Snowflake导出XLSX文件的解决方案

首先得明确：Snowflake的COPY INTO命令本身不支持直接导出为XLSX格式。你现在只是把文件名后缀改成了.xlsx，但实际输出的内容还是CSV格式——Excel识别不了这种“披着XLSX外衣”的CSV文件，所以打开时会提示损坏。另外，默认情况下COPY INTO会对输出文件进行GZIP压缩，这也会导致文件无法正常被Excel识别。

下面给你两种可行的解决方案，都能生成原生、可正常打开且不额外压缩的XLSX文件：

方法一：用Python + Pandas（最推荐）

这种方法通过客户端工具把Snowflake的查询结果转换成原生XLSX，再上传到你的S3 Stage（如果需要），步骤清晰且容易实现。

步骤1：安装依赖库

先确保你的Python环境安装了必要的包：

pip install snowflake-connector-python pandas openpyxl

步骤2：编写完整代码

import snowflake.connector
import pandas as pd
from datetime import datetime

# 替换成你的实际参数
wave_number = "123"  # 示例值，换成你的wave_number
time_stamp = datetime.now().strftime("%Y%m%d_%H%M%S")
file_name = f'w{wave_number}_processedsample_{time_stamp}_rawsample.xlsx'
database = "YOUR_DB_NAME"
schema = "YOUR_SCHEMA_NAME"
view = "YOUR_VIEW_NAME"
s3_stage_name = "YOUR_S3_STAGE_NAME"
s3_stage_path = f"@{database}.{schema}.{s3_stage_name}/{file_name}"

# 连接Snowflake
conn = snowflake.connector.connect(
    user='YOUR_USERNAME',
    password='YOUR_PASSWORD',
    account='YOUR_ACCOUNT_ID',  # 比如xxx.us-west-2
    warehouse='YOUR_WAREHOUSE_NAME',
    database=database,
    schema=schema
)

# 执行查询并将结果读入DataFrame
query = f"SELECT * FROM {database}.{schema}.{view} WHERE wavenumber = {wave_number}"
df = pd.read_sql(query, conn)

# 保存为原生XLSX文件（本地）
df.to_excel(file_name, index=False, header=True)

# 如果需要上传到S3 Stage，用PUT命令并关闭自动压缩
put_query = f"PUT file://{file_name} {s3_stage_path} OVERWRITE = TRUE AUTO_COMPRESS = FALSE"
cursor = conn.cursor()
cursor.execute(put_query)

# 清理资源
cursor.close()
conn.close()