如何用Pandas按1/10年重采样品牌数据并执行插值？

阿华AIGC实验室

2026-5-6

解决按1/10年间隔分组重采样并插值的问题

嘿，我完全懂你连续三天卡在这里的烦躁——处理跨20年的多品牌时间序列，还要按1/10年这种非标准间隔重采样插值，确实容易在TimedeltaIndex上栽跟头。毕竟Timedelta是固定时长，而0.1年的实际天数会随闰年变化，用它来匹配“按年份比例的间隔”本来就不对路。下面给你一套能直接落地的方案，尽量贴合你现有的代码结构，减少修改量：

核心思路

不用TimedeltaIndex，改用基于日历的DateOffset来生成0.1年间隔的时间点，然后按品牌分组后重采样插值。这样既符合“1/10年”的业务需求，又能完美兼容pandas的插值逻辑。

分步代码实现

1. 数据预处理（确保日期格式正确）

首先把你的CSV日期列转成datetime类型，这是后续所有操作的基础：

import pandas as pd
import numpy as np

# 加载数据，假设你的日期列叫"year"或"date"，这里统一处理
df = pd.read_csv("your_large_dataset.csv")
# 如果原数据是年份（比如"2000"），用format='%Y'；如果是具体日期就直接转
df["date"] = pd.to_datetime(df["date"], format="%Y")
# 设置日期为索引并排序，保证时间序列有序
df = df.set_index("date").sort_index()

2. 定义分组处理函数

写一个专门处理单品牌数据的函数，生成目标时间序列并完成插值：

def process_brand_group(group):
    # 获取当前品牌的时间范围
    start = group.index.min()
    end = group.index.max()
    
    # 生成0.1年间隔的时间点：用DateOffset(years=0.1)自动处理闰年差异
    target_dates = pd.date_range(start=start, end=end, freq=pd.offsets.DateOffset(years=0.1))
    
    # 重采样到目标日期，然后用线性插值填充空值（也可以选method='time'按时间权重插值）
    resampled_data = group.reindex(target_dates).interpolate(method="linear")
    
    # 恢复品牌名称列（分组后name是组名，这里把它加回数据里）
    resampled_data["name"] = group.name
    # 重置索引，把日期变回普通列，贴合你原有的输出格式
    return resampled_data.reset_index().rename(columns={"index": "date"})

3. 分组执行并合并结果

按品牌分组后应用上面的函数，最后合并成最终结果：

# 按name分组处理，自动合并所有品牌的结果
final_result = df.groupby("name").apply(process_brand_group).reset_index(drop=True)

为什么TimedeltaIndex不行？

TimedeltaIndex是基于固定时长的（比如36天），但0.1年的实际时长在平年是36.5天，闰年是36.6天，用固定时长会导致时间点逐渐偏离“年份的十分之一”的要求。而pd.offsets.DateOffset(years=0.1)是基于日历计算的，会自动适配不同年份的天数，完全符合你的需求。

针对大型数据的优化方案

如果你的CSV大到内存吃不消，可以用Dask来并行处理，逻辑和上面完全一致，只是换用Dask的DataFrame：

import dask.dataframe as dd

# 用Dask加载大型CSV
dask_df = dd.read_csv("your_large_dataset.csv")
dask_df["date"] = dd.to_datetime(dask_df["date"], format="%Y")
dask_df = dask_df.set_index("date")

# 定义元数据（告诉Dask输出的结构）
meta = pd.DataFrame({
    "date": pd.Timestamp("2000-01-01"),
    "value": float,
    "name": str
})

# 并行分组处理并计算结果
final_result = dask_df.groupby("name").apply(process_brand_group, meta=meta).compute()

注意事项

如果原数据的时间点间隔极不均匀，推荐用method='time'插值，它会根据两个时间点的实际间隔分配插值权重，结果更准确。
如果你需要严格的“每36.525天”（平均年长度的十分之一），可以把freq改成"36.525D"，但DateOffset的方式更贴合“1/10年”的业务语义。
要保留原输出格式的话，只需要调整process_brand_group函数里的列名和顺序，和你原数据的结构对齐即可。

内容的提问来源于stack exchange，提问作者DEVELOPER_ONE