如何在Python中实现将音频直接输出到麦克风设备？

阿华AIGC实验室

2026-4-14

你遇到的问题确实是Python原生音频库的常见限制——大部分库只支持向输出设备（比如音箱）写入数据，而要模拟麦克风输入（向输入设备注入音频），需要调用系统底层的音频API。下面给你几个从易到难的方案，不需要从零写C++扩展也能快速实现需求：

方案1：使用增强版PyAudio库（Windows专用，最快上手）

推荐用pyaudiowpatch，它是PyAudio的社区fork版本，专门针对Windows的Wasapi音频API做了扩展，支持将音频数据直接注入到系统的麦克风输入流，而且不需要用户手动安装额外驱动（依赖系统原生的Wasapi组件）。

操作步骤：

先安装依赖库：

pip install pyaudiowpatch audio_metadata numpy

修改你现有的播放函数，适配麦克风输入注入：

import pyaudiowpatch as pyaudio
import audio_metadata
import numpy as np

# 假设你的SETTINGS配置和之前一致
SETTINGS = {
    "CHUNK_SIZE": 1024,
    "VOLUME": 0.7,
    # 可以留空，自动用默认麦克风
    "MIC_DEVICE_INDEX": None
}

def play_sound_as_mic(audio_file):
    p = pyaudiowpatch.PyAudio()
    
    # 获取麦克风设备：优先用配置的ID，没有则用系统默认麦克风
    if SETTINGS["MIC_DEVICE_INDEX"] is not None:
        mic_device_index = SETTINGS["MIC_DEVICE_INDEX"]
    else:
        default_mic = p.get_default_input_device_info()
        mic_device_index = default_mic["index"]
    
    # 读取音频文件元数据
    metadata = audio_metadata.loads(audio_file.read())
    audio_file.seek(0)
    
    # 关键：打开麦克风输入设备的写入流（Wasapi独占模式支持写入输入设备）
    stream = p.open(
        format=pyaudio.paInt16,
        channels=metadata.streaminfo.channels,
        rate=metadata.streaminfo.sample_rate,
        input_device_index=mic_device_index,
        input=True,  # 标记为输入流，但在Wasapi模式下支持写入
        # 启用Wasapi独占模式，确保可以向输入设备写入数据
        flags=pyaudio.paDirectSound | pyaudio.paNoEvent
    )
    
    chunk = SETTINGS["CHUNK_SIZE"]
    data = audio_file.read(chunk)
    while data:
        # 处理音频数据：音量调整、格式转换
        datachunk = np.frombuffer(data, np.int16)
        datachunk = datachunk * SETTINGS["VOLUME"]
        datachunk = datachunk.astype(np.int16)
        datachunk_bytes = datachunk.tobytes()
        
        # 写入到麦克风输入流（此时其他应用会从麦克风捕获到这段音频）
        stream.write(datachunk_bytes)
        data = audio_file.read(chunk)
    
    # 清理资源
    stream.stop_stream()
    stream.close()
    p.terminate()

注意事项：

仅支持Windows 7及以上系统，依赖系统自带的Wasapi组件；
需要确保你的程序有麦克风访问权限（Windows设置中开启「麦克风隐私权限」）；
如果是物理麦克风设备，部分硬件可能不支持写入，这时候可以考虑让程序自动部署便携版的轻量虚拟麦克风驱动（需要处理安装权限）。

方案2：用Python调用.NET的NAudio库（Windows兼容性更强）

NAudio是.NET生态中非常成熟的音频处理库，对Windows音频设备的支持更全面，能轻松实现将音频推送到虚拟麦克风输入。你可以用pythonnet库在Python中直接调用NAudio，完全不需要自己写C++代码。

操作步骤：

安装依赖：

pip install pythonnet

然后下载NAudio的DLL文件（可以从NuGet官网下载，或者用nuget install NAudio命令获取），将NAudio.dll放到你的Python项目目录中。

示例代码：

import clr
import sys
from pathlib import Path
from time import sleep

# 加载NAudio的DLL
sys.path.append(str(Path(__file__).parent))
clr.AddReference("NAudio")

from NAudio.Wave import WaveFileReader, WasapiOut
from NAudio.CoreAudioApi import MMDeviceEnumerator, DataFlow, Role

def play_to_mic(audio_file_path):
    # 打开本地音频文件
    reader = WaveFileReader(audio_file_path)
    
    # 获取系统默认的通讯麦克风设备
    enumerator = MMDeviceEnumerator()
    mic_device = enumerator.GetDefaultAudioEndpoint(DataFlow.Capture, Role.Communications)
    
    # 初始化Wasapi输出，将音频推送到麦克风输入设备
    wasapi_out = WasapiOut(mic_device, False, 200)
    wasapi_out.Init(reader)
    
    # 开始播放（此时QQ、Teams等应用会从麦克风捕获到这段音频）
    wasapi_out.Play()
    while wasapi_out.Playing:
        sleep(0.1)
    
    # 清理资源
    wasapi_out.Stop()
    wasapi_out.Dispose()
    reader.Dispose()

优势：

NAudio对Windows设备的兼容性更好，支持更多音频格式和设备类型；
不需要手动处理音频流的底层细节，封装程度更高。

方案3：自己写极简C++扩展（跨平台可选）

如果需要跨平台支持（Windows/Linux/macOS），可以写一个轻量的C++扩展，调用各系统的原生音频API，然后在Python中导入调用。这里以Windows为例，给你一个极简的实现框架：

步骤1：编写C++代码（`mic_inject.cpp`）

#include <Python.h>
#include <windows.h>
#include <mmdeviceapi.h>
#include <audioclient.h>

// 将音频数据注入到默认麦克风的函数
static PyObject* inject_to_mic(PyObject* self, PyObject* args) {
    const char* data;
    Py_ssize_t length;
    int sample_rate, channels;

    // 解析Python传入的参数
    if (!PyArg_ParseTuple(args, "s#ii", &data, &length, &sample_rate, &channels)) {
        return NULL;
    }

    // 初始化COM环境
    HRESULT hr = CoInitialize(NULL);
    if (FAILED(hr)) {
        PyErr_SetString(PyExc_OSError, "Failed to initialize COM");
        return NULL;
    }

    // 获取默认麦克风设备
    IMMDeviceEnumerator* enumerator = NULL;
    hr = CoCreateInstance(__uuidof(MMDeviceEnumerator), NULL, CLSCTX_ALL, __uuidof(IMMDeviceEnumerator), (void**)&enumerator);
    IMMDevice* device = NULL;
    hr = enumerator->GetDefaultAudioEndpoint(eCapture, eCommunications, &device);

    // 初始化AudioClient
    IAudioClient* audio_client = NULL;
    hr = device->Activate(__uuidof(IAudioClient), CLSCTX_ALL, NULL, (void**)&audio_client);
    
    // 定义音频格式（16位PCM）
    WAVEFORMATEX wave_format = {0};
    wave_format.wFormatTag = WAVE_FORMAT_PCM;
    wave_format.nChannels = channels;
    wave_format.nSamplesPerSec = sample_rate;
    wave_format.wBitsPerSample = 16;
    wave_format.nBlockAlign = (wave_format.nChannels * wave_format.wBitsPerSample) / 8;
    wave_format.nAvgBytesPerSec = wave_format.nSamplesPerSec * wave_format.nBlockAlign;

    // 启动音频流
    hr = audio_client->Initialize(AUDCLNT_SHAREMODE_SHARED, AUDCLNT_STREAMFLAGS_LOOPBACK, 0, 0, &wave_format, NULL);
    hr = audio_client->Start();

    // 获取RenderClient并写入数据
    IAudioRenderClient* render_client = NULL;
    hr = audio_client->GetService(__uuidof(IAudioRenderClient), (void**)&render_client);
    BYTE* pBuffer;
    hr = render_client->GetBuffer(length / wave_format.nBlockAlign, &pBuffer);
    memcpy(pBuffer, data, length);
    hr = render_client->ReleaseBuffer(length / wave_format.nBlockAlign, 0);

    // 清理资源
    render_client->Release();
    audio_client->Stop();
    audio_client->Release();
    device->Release();
    enumerator->Release();
    CoUninitialize();

    Py_RETURN_NONE;
}

// Python模块方法列表
static PyMethodDef MicInjectMethods[] = {
    {"inject", inject_to_mic, METH_VARARGS, "Inject audio data to default microphone input"},
    {NULL, NULL, 0, NULL}
};

// Python模块定义
static struct PyModuleDef micinjectmodule = {
    PyModuleDef_HEAD_INIT,
    "micinject",
    NULL,
    -1,
    MicInjectMethods
};

// 模块初始化
PyMODINIT_FUNC PyInit_micinject(void) {
    return PyModule_Create(&micinjectmodule);
}

步骤2：编译成Python扩展

用MSVC编译器编译（需要安装Visual Studio的C++工具链）：

cl /LD mic_inject.cpp /I "C:\Python311\include" /link /LIBPATH:"C:\Python311\libs" python311.lib

步骤3：在Python中调用

import micinject
import numpy as np
import audio_metadata

def play_to_mic(audio_file):
    metadata = audio_metadata.loads(audio_file.read())
    audio_file.seek(0)
    
    chunk_size = SETTINGS["CHUNK_SIZE"]
    data = audio_file.read(chunk_size)
    while data:
        datachunk = np.frombuffer(data, np.int16)
        datachunk = datachunk * SETTINGS["VOLUME"]
        datachunk_bytes = datachunk.astype(np.int16).tobytes()
        
        # 调用C++扩展注入到麦克风
        micinject.inject(
            datachunk_bytes,
            len(datachunk_bytes),
            metadata.streaminfo.sample_rate,
            metadata.streaminfo.channels
        )
        data = audio_file.read(chunk_size)

注意事项：

上述C++代码是极简示例，需要完善错误处理、循环写入逻辑；
跨平台需要分别编写Linux（PulseAudio）和macOS（Core Audio）的对应实现。

总结

如果你的用户主要是Windows系统，方案1或方案2是最快上手的，不需要自己写C++代码；如果需要跨平台支持，再考虑方案3。另外，如果不想让用户安装任何额外驱动，最好的方式是依赖系统原生的虚拟设备支持（比如Linux的PulseAudio虚拟源、Windows的Wasapi环回），或者在程序中自动部署轻量级的便携虚拟驱动（需要处理安装权限）。

备注：内容来源于stack exchange，提问作者Super Zombi