You need to enable JavaScript to run this app.
最新活动
大模型
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

无法创建PMMLPipeline:导出逻辑回归模型至PMML格式报错求助

解决sklearn2pmml导出PMML时的ValueError问题

嘿,我来帮你搞定这个问题!你遇到的ValueError: not enough values to unpack (expected 2, got 1),核心是PMMLPipeline的初始化方式错了,再加上DataFrameMapper的用法也有偏差,咱们一步步拆解问题,然后给出正确的写法:

问题原因分析

  1. PMMLPipeline参数格式错误
    PMMLPipeline的正确初始化方式是接收一个步骤列表(每个步骤是(名称, 组件)的元组),而不是把mapper和classifier直接作为单独的位置参数传进去。你之前的写法相当于把两个元组当成了独立参数,不符合它的API要求,这是触发报错的直接原因。

  2. DataFrameMapper的用法有误

    • DataFrameMapper里的每个元素应该是特征列名(字符串)和预处理转换器的元组,而不是直接传balanced_data.type这种Series对象。
    • 目标变量isFraud不应该放进DataFrameMapper里!DataFrameMapper只负责处理特征变量,目标变量是在模型拟合时单独传入的,不需要在这里定义。

完整解决步骤与代码

1. 导入必要的库

from sklearn2pmml import PMMLPipeline, sklearn2pmml
from sklearn2pmml.preprocessing import DataFrameMapper
from sklearn.linear_model import LogisticRegression

2. 定义特征与目标列

先把特征列和目标列明确分开,让代码更清晰:

# 特征列列表
feature_cols = ["type", "amount", "oldbalanceOrig", "newbalanceOrig", "oldbalanceDest"]
# 目标列
target_col = "isFraud"

3. 正确初始化DataFrameMapper

只处理特征列,用列名字符串而非Series,None表示不对该列做额外预处理:

mapper = DataFrameMapper([(col, None) for col in feature_cols])

4. 正确初始化PMMLPipeline

把mapper和分类器放进一个步骤列表里,每个元素是(名称, 组件)的元组:

pipeline = PMMLPipeline([
    ("mapper", mapper),
    ("classifier", LogisticRegression(
        penalty="l2", 
        dual=False, 
        tol=0.0001, 
        C=1.0, 
        fit_intercept=True, 
        intercept_scaling=1, 
        random_state=12345, 
        solver="lbfgs", 
        max_iter=100, 
        multi_class="ovr", 
        verbose=0, 
        warm_start=False, 
        n_jobs=-1
    ))
])

5. 拟合模型并导出PMML

# 拟合模型:传入特征数据和目标变量
pipeline.fit(balanced_data[feature_cols], balanced_data[target_col])

# 导出为PMML文件
sklearn2pmml(pipeline, "fraud_detection_logreg.pmml")

额外注意事项

  • 如果type是字符串类型的分类特征,逻辑回归无法直接处理,你需要给它加预处理转换器,比如用LabelEncoder做标签编码,或者OneHotEncoder做独热编码。举个例子:
    from sklearn.preprocessing import LabelEncoder
    mapper = DataFrameMapper([
        ("type", LabelEncoder()),
        ("amount", None),
        ("oldbalanceOrig", None),
        ("newbalanceOrig", None),
        ("oldbalanceDest", None)
    ])
    
  • 确保你已经安装了正确版本的依赖:pip install sklearn2pmml scikit-learn

内容的提问来源于stack exchange,提问作者Jin Khor

火山引擎 最新活动