如何使用xarray的pydap后端读取IRI的OPeNDAP数据并计算均值？

如何使用xarray的pydap后端读取IRI的OPeNDAP数据并计算均值？

阿华AIGC实验室

2026-5-27

如何计算xarray通过OPeNDAP读取的DataArray的均值？

我正在使用xarray的pydap后端读取IRI通过OPeNDAP存储的数据，代码如下：

import xarray as xr
remote_data = xr.open_dataarray('http://iridl.ldeo.columbia.edu/SOURCES/.Models/.SubX/.RSMAS/.CCSM4/.hindcast/.zg/dods')
print(remote_data)

输出结果为：

<xarray.DataArray 'zg' (P: 2, S: 6569, M: 3, L: 45, Y: 181, X: 360)>
[115569730800 values with dtype=float32]
Coordinates:
 * L (L) timedelta64[ns] 0 days 12:00:00 1 days 12:00:00 ...
 * Y (...

请问如何计算该DataArray的均值？

计算均值的几种常用方法

xarray的DataArray自带了非常方便的.mean()方法，你可以根据自己的需求选择不同的计算方式：

1. 计算全局所有维度的均值

如果想要整个数据集的整体均值，直接调用.mean()就搞定了：

# 全局均值
global_mean = remote_data.mean()
print(global_mean)

2. 针对特定维度计算均值

如果只需要在某些维度上求均值（比如时间维度L、空间维度X/Y这类），可以通过dim参数指定具体维度：

# 按时间维度L计算每个格点的时间平均
time_mean = remote_data.mean(dim='L')

# 按空间维度X和Y计算每个时刻的空间平均
spatial_mean = remote_data.mean(dim=['X', 'Y'])

# 组合多个维度，比如同时按时间+空间维度计算均值
combined_mean = remote_data.mean(dim=['L', 'X', 'Y'])

针对远程OPeNDAP数据的小提示

因为你读的是远程OPeNDAP数据，xarray会自动处理数据的分块读取，但你的数据集规模很大（超过100亿个值），计算时可以注意这些点：

先用.chunk()方法对数据分块，避免一次性加载太多数据占满内存：

# 先分块再计算，这里可以根据你的内存情况调整分块大小
chunked_data = remote_data.chunk({'S': 1000, 'L': 10})
chunked_mean = chunked_data.mean(dim='S')

如果遇到内存不足的问题，可以分步计算：先算一部分维度的均值，再基于结果计算其他维度，减少单次处理的数据量。

另外，如果数据里有缺失值（NaN），.mean()默认会忽略它们（skipna=True），如果需要保留缺失值参与计算，可以显式设置skipna=False：

# 不忽略缺失值的均值计算
mean_include_nan = remote_data.mean(dim='L', skipna=False)

内容的提问来源于stack exchange，提问作者Ray Bell

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，免费解锁 ArkClaw，7*24 小时在线的专属智能伙伴

一键部署 OpenClaw

分钟级部署，云服务器包月低至￥9.9，与 CodingPlan 组合购买仅需19.8元

Seedance2.0 体验中心上线

注册即享免费500万Tokens，抢先领略新一代AI视频技术跃迁

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠