如何在Python中按年份循环加载数据并生成Data2010-Data2017数据集变量？

阿华AIGC实验室

2026-5-20

嘿，我懂你想批量生成Data2010到Data2017这些按年份命名的数据集变量的需求——处理多年份数据时，这种批量操作确实能省不少事！不过先给你提个实用建议：尽量别直接创建一堆独立变量，用字典来管理这些数据集会更清晰、更易维护。下面给你两种方案，按需选择：

推荐方案：用字典统一管理数据集

字典天生适合这种按类别（这里是年份）存储数据的场景，既能避免命名空间混乱，还方便后续批量操作所有数据集：

# 先初始化一个空字典，用来存所有年份的数据
yearly_datasets = {}

# 循环遍历2010到2017年（range的右边界是开区间，所以写2018）
for year in range(2010, 2018):
    # 这里替换成你实际加载对应年份数据的代码
    # 比如用pandas加载csv：pd.read_csv(f"your_data_{year}.csv")
    # 假设load_year_data是你自己写的加载函数，传入年份返回数据集
    dataset = load_year_data(year)
    
    # 把数据集存入字典，键就是你想要的变量名格式
    yearly_datasets[f"Data{year}"] = dataset

# 之后要访问某一年的数据，直接通过字典键调用就行
print(yearly_datasets["Data2015"].head())  # 比如查看2015年数据的前几行

用字典的好处还在于，你可以轻松批量处理所有数据集，比如统一做数据清洗：

for dataset_name, data in yearly_datasets.items():
    print(f"正在处理 {dataset_name}...")
    # 这里添加你的统一处理逻辑，比如缺失值填充、格式转换等
    data.fillna(0, inplace=True)

可选方案：直接创建独立变量（不推荐）

如果你确实需要生成Data2010到Data2017这些独立变量，可以用globals()函数来动态创建，但要注意：这种方式会污染全局命名空间，后续如果变量名重复会覆盖数据，维护起来很麻烦，谨慎使用：

for year in range(2010, 2018):
    # 同样替换成你的数据加载代码
    dataset = load_year_data(year)
    
    # 动态创建全局变量
    globals()[f"Data{year}"] = dataset

# 现在你可以直接调用这些变量了
print(Data2010.describe())

总的来说，优先选字典方案，后续维护和操作都会更顺畅！

内容的提问来源于stack exchange，提问作者Marcel B