如何创建训练TensorFlow音频输入模型及输入原始音频至神经网络？

阿华AIGC实验室

2026-5-25

嘿，这个音频分类的需求我之前刚好做过类似的项目，给你一步步拆解实现流程——从原始WAV文件处理到模型训练、预测全给你讲明白：

一、先搞定音频预处理：把WAV转成模型能识别的特征

直接喂原始音频波形给神经网络效果很差，我们需要先把时域的音频信号转成频域的特征（类似图像的二维结构，适合用CNN处理），核心步骤如下：

加载并标准化音频文件
用TensorFlow自带的tf.audio.decode_wav就能直接读取WAV文件，拿到波形数据和采样率。这里要注意统一所有音频的采样率（比如都转成16000Hz，计算量小且效果稳定），如果是立体声还要转成单声道：

def load_audio(file_path):
    audio_binary = tf.io.read_file(file_path)
    waveform, sample_rate = tf.audio.decode_wav(audio_binary)
    # 转单声道
    waveform = tf.squeeze(waveform, axis=-1)
    # 统一采样率到16000Hz
    sample_rate = tf.cast(sample_rate, tf.int64)
    waveform = tf.audio.resample(waveform, sample_rate, 16000)
    return waveform, 16000

提取梅尔频谱特征（关键！）
梅尔频谱是音频分类里最常用的特征，它模拟人耳对声音的感知，把频谱转成对数刻度的二维矩阵。代码实现如下：

def extract_mel_spectrogram(waveform, sample_rate):
    # 计算短时傅里叶变换得到频谱图
    stft = tf.signal.stft(waveform, frame_length=256, frame_step=128)
    spectrogram = tf.abs(stft)
    # 转梅尔刻度
    num_mel_bins = 64
    linear_to_mel = tf.signal.linear_to_mel_weight_matrix(
        num_mel_bins, spectrogram.shape[-1], sample_rate, 80.0, 7600.0
    )
    mel_spectrogram = tf.tensordot(spectrogram, linear_to_mel, 1)
    # 取对数，让特征分布更稳定
    log_mel = tf.math.log(mel_spectrogram + 1e-6)
    # 增加通道维度，适配CNN输入格式（batch, height, width, channels）
    log_mel = tf.expand_dims(log_mel, -1)
    # 统一特征大小（比如音频时长不同时，固定成64x64）
    log_mel = tf.image.resize(log_mel, (64, 64))
    return log_mel

二、构建数据集：批量加载+自动匹配标签

建议把你的音频文件按标签分类存放，比如audio_data/left/*.wav、audio_data/right/*.wav，这样可以自动提取标签：

关联文件路径与标签

import os
# 获取所有音频文件路径
dataset = tf.data.Dataset.list_files("audio_data/*/*.wav", shuffle=True)

# 从路径中提取标签并转成整数
def get_label(file_path):
    parts = tf.strings.split(file_path, os.path.sep)
    label_str = parts[-2]  # 取倒数第二个目录名作为标签
    # 映射到整数：left=0，right=1，有更多标签可以扩展这个逻辑
    return tf.cast(label_str == "left", tf.int32)

搭建完整的预处理流水线
把加载、提取特征、获取标签整合起来，同时做缓存、预取优化，提升训练速度：

def preprocess(file_path):
    label = get_label(file_path)
    waveform, sample_rate = load_audio(file_path)
    mel_feature = extract_mel_spectrogram(waveform, sample_rate)
    return mel_feature, label

batch_size = 32
# 构建训练集
train_ds = dataset.map(preprocess, num_parallel_calls=tf.data.AUTOTUNE)
train_ds = train_ds.shuffle(1000).batch(batch_size).prefetch(tf.data.AUTOTUNE)

# 拆分测试集（比如取20%数据做测试）
test_size = int(len(dataset) * 0.2)
test_ds = train_ds.take(test_size)
train_ds = train_ds.skip(test_size)

三、搭建音频分类模型

因为梅尔频谱是二维结构，用CNN模型最合适，结构类似图像分类模型，简单高效：

from tensorflow.keras import layers, models

def build_model(input_shape=(64, 64, 1), num_classes=2):
    model = models.Sequential([
        # 卷积层提取局部特征
        layers.Conv2D(32, (3, 3), activation='relu', input_shape=input_shape),
        layers.MaxPooling2D((2, 2)),
        layers.Conv2D(64, (3, 3), activation='relu'),
        layers.MaxPooling2D((2, 2)),
        layers.Conv2D(128, (3, 3), activation='relu'),
        layers.MaxPooling2D((2, 2)),
        # 全连接层做分类
        layers.Flatten(),
        layers.Dense(128, activation='relu'),
        layers.Dropout(0.5),  # Dropout防止过拟合
        layers.Dense(num_classes, activation='softmax')
    ])
    return model

# 初始化模型
model = build_model()
# 编译模型：用Adam优化器，稀疏交叉熵损失（因为标签是整数）
model.compile(optimizer='adam',
              loss=tf.keras.losses.SparseCategoricalCrossentropy(),
              metrics=['accuracy'])

四、训练与预测

训练模型

epochs = 20
history = model.fit(
    train_ds,
    epochs=epochs,
    validation_data=test_ds
)

评估模型

test_loss, test_acc = model.evaluate(test_ds)
print(f"测试集准确率：{test_acc:.2f}")

单音频预测

def predict_audio(file_path):
    # 预处理单文件
    mel_feature, _ = preprocess(file_path)
    # 增加batch维度
    mel_feature = tf.expand_dims(mel_feature, 0)
    # 预测
    pred_prob = model.predict(mel_feature, verbose=0)
    pred_label_idx = tf.argmax(pred_prob, axis=1).numpy()[0]
    return 'left' if pred_label_idx == 0 else 'right'

# 测试预测
print(predict_audio("test_left.wav"))

五、实用小贴士

数据增强：如果你的数据集很小，容易过拟合，可以给音频做增强——比如时间拉伸、音调变换、添加低音量背景噪音，用tf.signal或者librosa库就能实现。
统一音频时长：尽量把所有音频统一成相同时长（比如1秒），避免特征大小不一致，可通过截取前N秒或者填充静音实现。
迁移学习：数据集极小时，可以用预训练的音频模型（比如YAMNet）做微调，能快速提升效果。
标签扩展：如果后续要加更多标签（比如forward、backward），只需要修改get_label函数里的映射逻辑即可。

内容的提问来源于stack exchange，提问作者martian1231