多IP独立线性回归预测网络数据包数：MLP失效与大数据拟合难题

阿华AIGC实验室

2026-5-12

我完全懂你踩的这个坑——把所有IP的流量数据混在一起喂给MLP，模型根本没法区分不同IP的行为模式，结果输出离谱的负数也不奇怪。你想给每个IP单独建线性回归模型的思路完全正确，而且根本不用手动一个个拟合，用Python的pandas和scikit-learn就能自动化搞定。下面是具体的实现方案：

自动化为每个IP构建独立线性回归模型

1. 先给数据打上IP标识

你的数据集前8列是IP的one-hot编码，我们可以先把它转换成直观的ip_id（比如0到7，对应8个不同IP），这样后续分组会更方便：

import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
import joblib

# 加载数据集（假设分隔符是分号，无表头）
df = pd.read_csv('your_training_data.csv', sep=';', header=None)

# 从one-hot列提取IP编号
ip_onehot = df.iloc[:, 0:8]
df['ip_id'] = np.argmax(ip_onehot.values, axis=1)

2. 分组批量训练模型

用pandas的groupby按ip_id分组，循环为每个IP训练专属的线性回归模型，同时把模型存起来（可以存在字典里，也可以存成本地文件方便后续调用）：

# 定义特征列和标签列：特征是IP列之后、标签列之前的所有列
feature_cols = df.columns[8:-1]
target_col = df.columns[-1]

# 用字典存储每个IP的模型
ip_model_dict = {}

# 遍历每个IP分组
for ip_id, ip_group in df.groupby('ip_id'):
    # 提取当前IP的特征和标签
    X = ip_group[feature_cols]
    y = ip_group[target_col]
    
    # 训练线性回归模型
    lr_model = LinearRegression()
    lr_model.fit(X, y)
    
    # 保存模型到字典+本地文件
    ip_model_dict[ip_id] = lr_model
    joblib.dump(lr_model, f'ip_{ip_id}_traffic_model.pkl')

3. 测试集预测：匹配IP调用对应模型

预测的时候，先给测试样本也打上ip_id，然后根据IP编号调用对应的模型就行：

# 加载测试集
test_df = pd.read_csv('your_test_data.csv', sep=';', header=None)

# 同样生成测试集的IP编号
test_ip_onehot = test_df.iloc[:, 0:8]
test_df['ip_id'] = np.argmax(test_ip_onehot.values, axis=1)

# 逐行预测
test_df['predicted_packets'] = test_df.apply(
    lambda row: ip_model_dict[row['ip_id']].predict(row[feature_cols].values.reshape(1, -1))[0],
    axis=1
)

# 查看结果
print(test_df[['ip_id', target_col, 'predicted_packets']])