如何用Python实现音频回环采样，按2秒块采集音频以检测特定噪音

阿华AIGC实验室

2026-5-14

实现Python音频回环录制（按2秒块捕获扬声器输出）

我完全理解你的需求——要捕获电脑扬声器正在播放的音频，并且按2秒的块来处理，这确实是检测特定噪音的核心第一步。之前我做类似的音频监测项目时，也折腾过回环录制的问题，下面给你两个靠谱的Python实现方案，都是经过实测有效的：

方案一：使用 `sounddevice` 结合系统虚拟回环设备

sounddevice 本身不直接提供回环捕获的功能，但只要系统配置了虚拟回环音频设备，就能用它来捕获输出音频。

第一步：配置系统回环设备

Windows：右键任务栏音量图标 → 声音设置 → 更多声音设置 → 录制选项卡，启用“立体声混音”设备（如果没看到，右键勾选“显示禁用的设备”）。
macOS：安装第三方虚拟音频驱动BlackHole，然后在音频MIDI设置里将输出设备设为BlackHole，同时设置输入设备为BlackHole（或者用多设备聚合实现同时监听+录制）。
Linux：使用PulseAudio的回环模块，执行命令 pactl load-module module-null-sink sink_name=Loopback sink_properties=device.description="Loopback"，然后创建回环源 pactl load-module module-loopback source=Loopback.monitor。

第二步：编写Python代码捕获2秒块

首先安装依赖：

pip install sounddevice numpy

然后用以下代码，它会按2秒的块捕获回环音频，并可以在回调函数里处理每个块：

import sounddevice as sd
import numpy as np

# 采样率，常用44100Hz
SAMPLERATE = 44100
# 2秒块的采样点数
BLOCKSIZE = SAMPLERATE * 2

# 先查询所有音频设备，找到回环设备的索引
print("可用音频设备：")
print(sd.query_devices())
# 替换成你的回环设备索引，比如Windows的"立体声混音"对应的索引
LOOPBACK_DEVICE_INDEX = 2  # 这里要改成你实际的索引

def audio_callback(indata, frames, time, status):
    if status:
        print(status)
    # indata就是2秒的音频数据，形状是(BLOCKSIZE, 2)（立体声）
    # 这里可以添加你的处理逻辑，比如保存为文件、分析频谱等
    print(f"捕获到2秒音频块，数据形状：{indata.shape}")

# 打开输入流，指定回环设备，设置块大小为2秒的采样数
with sd.InputStream(
    device=LOOPBACK_DEVICE_INDEX,
    samplerate=SAMPLERATE,
    blocksize=BLOCKSIZE,
    callback=audio_callback,
    channels=2  # 立体声，根据你的设备调整
):
    print("开始捕获回环音频，按Enter停止...")
    input()

方案二：使用 `pyaudio` 实现回环录制

如果你觉得sounddevice的回调模式不太习惯，也可以用pyaudio的阻塞式读取来获取2秒块：

先安装依赖：

pip install pyaudio numpy

代码示例：

import pyaudio
import numpy as np

SAMPLERATE = 44100
CHANNELS = 2
FORMAT = pyaudio.paFloat32
# 2秒的采样点数
CHUNK = SAMPLERATE * 2

# 查询设备，找到回环设备索引
p = pyaudio.PyAudio()
print("可用音频设备：")
for i in range(p.get_device_count()):
    info = p.get_device_info_by_index(i)
    print(f"索引{i}: {info['name']}")

# 替换成你的回环设备索引
LOOPBACK_DEVICE_INDEX = 2

# 打开流
stream = p.open(
    format=FORMAT,
    channels=CHANNELS,
    rate=SAMPLERATE,
    input=True,
    input_device_index=LOOPBACK_DEVICE_INDEX,
    frames_per_buffer=CHUNK
)

print("开始捕获回环音频，按Ctrl+C停止...")
try:
    while True:
        # 读取2秒的音频块
        data = stream.read(CHUNK)
        # 转换为numpy数组
        audio_np = np.frombuffer(data, dtype=np.float32).reshape(-1, CHANNELS)
        print(f"捕获到2秒音频块，数据形状：{audio_np.shape}")
        # 在这里添加你的处理逻辑
except KeyboardInterrupt:
    print("停止捕获")

# 关闭流和pyaudio
stream.stop_stream()
stream.close()
p.terminate()