Python中预处理8通道EEG数据集以提升模型准确率的技术问询

Python中预处理8通道EEG数据集以提升模型准确率的技术问询

阿华AIGC实验室

2026-5-20

针对你这个8通道EEG三分类任务的预处理需求，我整理了一套从数据清洗到特征工程的实用流程，应该能帮你有效提升模型准确率：

一、数据清洗与异常干扰去除

EEG信号特别容易被各种噪声污染，第一步先把这些“杂音”处理掉：

异常值截断/修复：先统计每个通道信号的均值和标准差，用3σ原则识别异常值（超出均值±3倍标准差的点），不要直接删除（会破坏序列连续性），建议用99.9%和0.1%分位数的值替换这些异常点，或者用相邻样本的均值插值填充。用numpy.percentile就能快速计算分位数。
工频干扰过滤：如果你的数据里有明显的50Hz（国内）或60Hz（欧美）电源干扰，用陷波滤波器搞定，比如用scipy.signal.iirnotch实现，参数设对应频率，Q值选30左右就行，能精准过滤掉工频噪声。
基线漂移校正：缓慢的基线漂移会掩盖真实脑电信号，要么用0.5Hz cutoff的巴特沃斯高通滤波器（scipy.signal.butter设计），要么用滑动窗口均值减法（比如取10秒窗口的均值作为基线，逐点减去）。

二、序列样本构造（核心步骤）

因为你的标签是连续多行相同的，直接用单样本训练会浪费时间上下文信息，必须构造序列样本：

滑动窗口采样：把连续的相同标签样本打包成固定长度的窗口，比如取10行（对应2.5秒）作为一个训练样本，窗口滑动步长可以设为1（全重叠）或5（半重叠），平衡样本数量和计算量。窗口大小可以根据任务调，认知类任务一般1-5秒都适用。
标签对齐：每个窗口的标签直接取窗口内的主导标签（因为同一标签持续多行，窗口内标签应该一致，取第一个或最后一个都可以），如果遇到窗口内标签不一致的情况，要么是标注错误，要么是标签切换的过渡段，建议把这类窗口单独剔除或做平滑处理（比如3样本窗口的多数投票修正标签）。

三、频域特征提取（EEG任务的关键）

原始电压值的区分度有限，提取频域特征能挖掘脑电的生理意义：

频段分离：用带通滤波器把每个通道的信号分解为5个经典脑电波频段：delta（0.5-4Hz）、theta（4-8Hz）、alpha（8-13Hz）、beta（13-30Hz）、gamma（30-50Hz），每个频段对应不同的脑活动状态。
统计特征计算：对每个频段的信号计算这些特征：均值、方差、能量（信号平方的均值）、功率谱密度（PSD）的峰值和均值，用scipy.signal.welch能快速计算PSD。这些特征比原始值更能区分不同类别。

四、归一化与标准化

EEG不同通道的电压范围差异大，必须做标准化：

通道独立标准化：对每个通道单独用StandardScaler（均值0，方差1）处理，注意一定要用训练集的统计量拟合scaler，再转换训练集和测试集，绝对不能用整个数据集的统计量，避免数据泄露。
序列级归一化：如果用序列模型（比如LSTM、Transformer），也可以对每个窗口内的信号做局部归一化，能让模型更好捕捉局部波动特征。

五、类别不平衡处理

如果0、1、2三类的样本量差距大，会导致模型偏向多数类：

欠采样：对样本最多的类别随机剔除部分样本，和少数类数量对齐。
过采样：用TimeSeriesSMOTE专门针对序列数据做过采样，避免普通SMOTE破坏时序结构。
模型权重调整：在训练时设置class_weight='balanced'（比如scikit-learn的模型），让模型给少数类更高的权重。

六、数据增强（提升泛化能力）

EEG样本量通常不大，数据增强能有效提升模型泛化性：

高斯噪声注入：给原始信号加少量高斯噪声（噪声强度设为原始信号标准差的5%-10%），模拟真实采集时的随机干扰。
时间拉伸/压缩：对序列做轻微的时间缩放（±10%），用scipy.interpolate.interp1d实现，增加样本多样性。
通道置换：如果你的任务不依赖特定通道的位置（比如通用情绪分类），可以随机置换部分通道的顺序，让模型学习更鲁棒的特征。

最后提醒下：先做数据可视化（比如绘制每个通道的连续波形、PSD图），搞清楚数据的特点（比如哪个频段的差异最大），再针对性调整预处理步骤，效果会更好。

内容的提问来源于stack exchange，提问作者AvHegde

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，免费解锁 ArkClaw，7*24 小时在线的专属智能伙伴

一键部署 OpenClaw

分钟级部署，云服务器包月低至￥9.9，与 CodingPlan 组合购买仅需19.8元

Seedance2.0 体验中心上线

注册即享免费500万Tokens，抢先领略新一代AI视频技术跃迁

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠