关联多DataFrame股票数据集的合理设计范式探讨

阿华AIGC实验室

2026-5-8

股票投资组合数据管理：三种设计范式的分析与建议

在构建股票投资组合时，我们常常用到价格、每股收益（EPS）、股息率这类指标，它们通常以独立的pandas DataFrame形式存储——行是时间点，列是具体股票（比如IBM、MSFT）。这些数据关联性极强，但分散存储在独立变量里的话，大型应用中很难追踪它们的关联关系。接下来咱们逐个分析你提到的三种设计方案：

1. 面向对象方案：Stock类+StockList类

这个思路是把单只股票的所有时间序列打包成一个Stock对象，再用StockList来管理股票集合，代码大概是这样：

class Stock():
    def __init__(self, price_series, eps_series, div_yield_series):
        self.price = price_series
        self.eps = eps_series
        self.div_yield = div_yield_series
class StockList():
    def __init__(self, stock_list):
        self.stock_list = stock_list
    def append(self, stock):
        self.stock_list.append(stock)

可行性分析：

适用场景：如果你的业务逻辑更多聚焦在单只股票的独立分析（比如单独查看某只股票的价格与EPS走势、计算单只股票的历史PE），这个方案是可行的。它把单只股票的属性封装得很清晰，代码可读性高。
性能问题：但如果需要频繁做跨股票的批量计算（比如计算整个组合的PE矩阵、按EPS筛选所有股票），拆分和合并DataFrame确实会带来性能损耗——毕竟pandas的优势就是批量处理结构化数据，拆成Series后再聚合回去会额外消耗时间和内存。
优化方向：如果想保留面向对象的封装性又减少性能损耗，可以在StockList里提供批量转换方法，比如新增一个get_price_df()方法，直接从所有Stock对象中提取price Series并合并成DataFrame，避免重复拆分合并；或者用延迟加载（lazy evaluation）的方式，只有当需要的时候才生成聚合后的DataFrame。

2. 折中方案：StockList直接存储DataFrame

这个方案是把关联的DataFrame直接作为StockList的属性，相当于用一个容器把相关数据打包在一起，比如：

class StockList():
    def __init__(self, price_df, eps_df, div_yield_df):
        self.price = price_df
        self.eps = eps_df
        self.div_yield = div_yield_df
    
    def calculate_pe_ratio(self):
        # 直接利用pandas的批量计算能力
        return self.price / self.eps

是否合适？

非常合适！这是兼顾性能和可维护性的最优解之一：

保留了pandas的批量计算性能：所有跨股票的操作都可以直接用DataFrame的原生方法，效率拉满；
解决了关联数据追踪的问题：把价格、EPS、股息率这些强关联的数据放在同一个容器里，不用再到处找分散的变量；
扩展性强：可以在StockList里封装常用的业务方法（比如计算PE、筛选高股息股票、调整组合权重），把数据和操作绑定在一起，代码结构更清晰。

如果你的大部分操作都是针对整个组合的批量处理，这个方案绝对是首选。

3. 保留独立变量：如何实现关联数据的聚合管理？

这个方案的优势很明显：完全保留了pandas的性能、内存效率，也更容易做并行计算（比如用dask或者swifter加速批量操作）。但关键问题是怎么管理这些分散的关联变量？

解决方法：

用简单容器打包：不需要复杂的类，用一个字典或者极简的容器类来把关联数据分组。比如：

# 用字典打包
portfolio_data = {
    "price": price_df,
    "eps": eps_df,
    "div_yield": div_yield_df
}

# 或者极简容器类（只做存储，不封装复杂逻辑）
class PortfolioDataHolder:
    def __init__(self, price, eps, div_yield):
        self.price = price
        self.eps = eps
        self.div_yield = div_yield

portfolio_data = PortfolioDataHolder(price_df, eps_df, div_yield_df)

这样既保留了独立变量的性能优势，又能通过一个入口快速找到所有关联数据，避免变量满天飞。

统一命名规范：如果不想用容器，也可以给变量加统一前缀，比如port_price、port_eps、port_div_yield，一眼就能看出这些是属于同一个投资组合的指标。

用类型注解辅助：在函数或者模块里用typing标注关联关系，比如：

from typing import Dict, DataFrame

PortfolioData = Dict[str, DataFrame]

def analyze_portfolio(data: PortfolioData):
    pe_ratio = data["price"] / data["eps"]
    # ...

这样其他开发者看代码的时候，能清楚知道哪些数据是一组的。