Python使用bisect对Pandas列做区间分箱时的ValueError处理

阿华AIGC实验室

2026-5-26

解决Pandas列数值分类时bisect引发的ValueError问题

我之前也踩过bisect的这个坑——你遇到的ValueError核心原因是bisect模块只认有序的数值分界点列表，不能直接传入字符串形式的区间描述，这完全不符合它的工作逻辑。下面给你两种可行的解决方案，一种修正bisect的用法，另一种是更适配Pandas场景的内置方法：

方案一：修正bisect的使用方式

首先得把区间的数值分界点和对应的文字标签分开，让bisect能处理它看得懂的数值序列，再把结果映射到标签上：

from pandas_datareader import data
import pandas as pd
import bisect
import fix_yahoo_finance as yf
yf.pdr_override()

# 获取数据并计算开盘到收盘的收益率
df = data.get_data_yahoo('SPY', '2015-01-01', '2018-04-05')
def Daily_Returns(A, B):
    return (B - A)*100/A
df['OC_Return_%'] = Daily_Returns(df['Open'], df['Close'])

# 定义升序排列的数值分界点，以及对应的区间标签
cutoffs = [-10, -5, -2.5, -2, -1.5, -1, 0, 1, 1.5, 2, 2.5, 5, 10]
labels = [
    'Less Than -10 %',
    '-10% to -5%',
    '-5% to -2.5%',
    '-2.5% to -2%',
    '-2% to -1.5%',
    '-1.5% to -1%',
    '-1% to 0%',
    '0% to 1%',
    '1% to 1.5%',
    '1.5% to 2%',
    '2% to 2.5%',
    '2.5% to 5%',
    '5% to 10%',
    'Greater Than 10%'
]

def classify_return(value):
    # 用bisect_left找到第一个大于当前值的分界点索引
    idx = bisect.bisect_left(cutoffs, value)
    return labels[idx]

# 将分类函数应用到收益率列
df['Return_Category'] = df['OC_Return_%'].apply(classify_return)

# 查看结果
print(df[['OC_Return_%', 'Return_Category']].tail(10))

关键注意事项：

cutoffs必须是严格升序的数值列表，bisect的查找逻辑完全依赖有序序列
标签数量要比分界点多1，因为n个分界点会划分出n+1个区间
最后一个标签专门处理超过最大分界点的情况，避免索引越界

方案二：用Pandas内置的`pd.cut`（更推荐）

其实Pandas本身就有专门做区间分类的工具pd.cut，比手动写bisect+apply简洁得多，还能自动处理边界情况：

# 复用前面生成的df和OC_Return_%列
df['Return_Category'] = pd.cut(
    df['OC_Return_%'],
    bins=[-float('inf'), -10, -5, -2.5, -2, -1.5, -1, 0, 1, 1.5, 2, 2.5, 5, 10, float('inf')],
    labels=labels
)