如何将Python kmodes聚类模型保存至磁盘？求可行技术方案

如何将Python kmodes聚类模型保存至磁盘？求可行技术方案

阿华AIGC实验室

2026-5-21

解决方案：保存kmodes/k-prototypes模型用于生产环境回滚

我刚好碰到过类似的生产场景需求，给你几个实用的方案，既能处理分类+数值混合数据，又能完整保存/加载模型：

方案1：直接用Pickle序列化kmodes模型

kmodes的模型对象其实原生支持pickle序列化，这是最简单的方案，不需要额外依赖。

示例代码：

from kmodes.kmodes import KModes
import pickle

# 训练模型（假设X是你的分类/混合数据集）
km = KModes(n_clusters=5, init='Huang', n_init=5, verbose=1)
clusters = km.fit_predict(X)

# 保存模型到磁盘
with open('kmodes_model.pkl', 'wb') as f:
    pickle.dump(km, f)

# 加载模型用于回滚
with open('kmodes_model.pkl', 'rb') as f:
    loaded_km = pickle.load(f)

# 验证加载后的模型可以正常使用
new_clusters = loaded_km.predict(X_new)

注意事项：

确保生产环境和训练环境的kmodes版本一致，避免序列化/反序列化兼容性问题
如果你的数据预处理逻辑（比如分类编码）也需要固化，建议把预处理 pipeline 和模型一起序列化（比如用sklearn.pipeline.Pipeline包装后再pickle）

方案2：改用k-prototypes处理混合数据并保存

如果你的数据是分类+数值混合类型，k-prototypes是kmodes的扩展，专门针对这种场景设计，同样支持pickle/joblib保存：

示例代码：

from kmodes.kprototypes import KPrototypes
import joblib  # joblib比pickle更适合大模型

# 训练模型（假设X是混合数据集，cat_cols指定分类列的索引）
kp = KPrototypes(n_clusters=5, init='Huang', n_init=5, verbose=1)
clusters = kp.fit_predict(X, categorical=cat_cols)

# 保存模型
joblib.dump(kp, 'kprototypes_model.joblib')

# 加载模型
loaded_kp = joblib.load('kprototypes_model.joblib')

# 使用模型
new_clusters = loaded_kp.predict(X_new, categorical=cat_cols)

方案3：手动保存模型核心参数（兼容HDF5格式）

如果你需要更可控的保存格式（比如HDF5），可以手动提取模型的关键参数并保存，之后手动重建模型：

示例代码（用HDF5保存聚类中心，JSON保存参数）：

from kmodes.kmodes import KModes
import h5py
import json

# 训练模型
km = KModes(n_clusters=5, init='Huang', n_init=5)
km.fit(X)

# 保存聚类中心到HDF5
with h5py.File('kmodes_centroids.h5', 'w') as hf:
    hf.create_dataset('centroids', data=km.cluster_centroids_)

# 保存模型参数到JSON
model_params = {
    'n_clusters': km.n_clusters,
    'init': km.init,
    'n_init': km.n_init,
    'verbose': km.verbose,
    # 其他需要的参数...
}
with open('kmodes_params.json', 'w') as f:
    json.dump(model_params, f)

# 加载模型
loaded_params = json.load(open('kmodes_params.json', 'r'))
loaded_km = KModes(**loaded_params)

# 加载聚类中心
with h5py.File('kmodes_centroids.h5', 'r') as hf:
    loaded_km.cluster_centroids_ = hf['centroids'][:]

# 现在loaded_km可以正常用于预测
new_clusters = loaded_km.predict(X_new)

生产环境建议

不管用哪种方案，都要在测试环境验证模型加载后的预测结果和原模型完全一致，避免兼容性问题
建议把模型和对应的数据集版本、预处理逻辑一起归档，方便回滚时完全复现环境
如果用pickle/joblib，建议定期测试模型在不同版本依赖下的加载情况，提前发现潜在问题

内容的提问来源于stack exchange，提问作者Mike Williamson

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，最新支持 DeepSeek-V4 系列与 GLM-5.1，受邀下单叠加9.5折

ArkClaw

7×24在线专属智能伙伴

Seedance 2.0 全面开放 API

创作无限可能，一键生成电影级 AI 视频

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠