如何使用R无需本地下载直接读取AWS S3存储桶中的Parquet文件？

如何使用R无需本地下载直接读取AWS S3存储桶中的Parquet文件？

阿华AIGC实验室

2026-5-8

直接从AWS S3读取Parquet文件（无需本地存储）

当然可以直接从S3读取Parquet文件，不用先下载到本地！在R里有几种简洁高效的实现方式，下面给你详细说明：

方法1：使用`arrow`包（推荐）

arrow包对Parquet格式和S3存储有原生支持，不仅能直接读取，还支持分块加载、列筛选等性能优化，非常适合处理大文件。

步骤：

先安装并加载包：

install.packages("arrow")
library(arrow)

直接读取S3上的Parquet文件：

如果你的本地环境已经配置了AWS凭证（比如通过AWS CLI设置了~/.aws/credentials，或者在EC2/EKS实例上绑定了有S3访问权限的IAM角色），可以直接用S3路径读取：

s3_parquet_path <- "s3://my-bucket/Financial_Sample.parquet"
df <- read_parquet(s3_parquet_path)

如果需要手动指定AWS密钥：

# 创建S3桶连接对象
s3_bucket_obj <- s3_bucket(
  bucket = "my-bucket",
  access_key = "你的AWS访问密钥",
  secret_key = "你的AWS秘密密钥"
)
# 读取文件
df <- read_parquet(s3_bucket_obj$path("Financial_Sample.parquet"))

方法2：`aws.s3` + `arrow` 内存读取

如果习惯用aws.s3包，也可以把文件读取到内存中，再解析为DataFrame，适合小文件场景：

安装并加载所需包：

install.packages(c("aws.s3", "arrow"))
library(aws.s3)
library(arrow)

内存读取实现：

# 将S3文件读为raw格式的内存对象
parquet_raw_data <- get_object(
  object = "Financial_Sample.parquet",
  bucket = "my-bucket"
)
# 从内存连接中解析Parquet
df <- read_parquet(rawConnection(parquet_raw_data))

注意事项：

确保你的运行环境有访问目标S3桶的权限：可以通过IAM角色、环境变量（AWS_ACCESS_KEY_ID和AWS_SECRET_ACCESS_KEY）或者本地凭证文件配置。
处理超大Parquet文件时，优先用arrow的原生S3读取，它支持分块加载，不会把整个文件加载到内存，避免内存溢出。

内容的提问来源于stack exchange，提问作者ATU

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，免费解锁 ArkClaw，7*24 小时在线的专属智能伙伴

一键部署 OpenClaw

分钟级部署，云服务器包月低至￥9.9，与 CodingPlan 组合购买仅需19.8元

Seedance2.0 体验中心上线

注册即享免费500万Tokens，抢先领略新一代AI视频技术跃迁

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠