Android平台同步实现语音识别与音频录制的技术方案咨询

阿华AIGC实验室

2026-4-8

我特别理解你现在遇到的这个两难问题——既要实时转写语音内容，又要同步保存原始录音，但Android的麦克风独占机制确实卡了不少开发者的脖子。之前我也帮不少人处理过类似需求，给你几个经过验证的实用方案，你可以根据自己的场景灵活选择：

核心解决方案：用`AudioRecord`获取原始流，分发给双模块

这是绕开麦克风独占问题的最直接思路，因为AudioRecord是Android提供的底层音频采集API，能直接拿到原始PCM音频数据，之后我们可以把这份数据同时喂给语音识别引擎和录音写入模块：

第一步：初始化AudioRecord采集原始PCM
要注意统一采样率、声道数、位深这些参数，比如选移动端常用的44100Hz采样率、单声道、16位PCM，这样既能保证识别准确率，又能兼容大部分STT引擎：
第二步：多线程分发数据流
启动两个独立的工作线程：一个线程把PCM数据喂给语音识别引擎（比如Vosk或本地版Whisper），另一个线程把PCM数据写入文件，之后可以用MediaCodec把原始PCM转成AAC/MP3格式（节省存储空间）。
适配系统SpeechRecognizer的替代方案
如果你原本依赖系统的SpeechRecognizer，确实没法直接对接数据流，但可以换成支持手动传入音频缓冲区的STT实现——比如Vosk的Android SDK就支持通过acceptWaveForm()方法手动喂入PCM数据，完美适配这个方案。

给你一段简化的核心代码示例，方便你快速上手：

// 初始化AudioRecord参数
val audioFormat = AudioFormat.Builder()
    .setSampleRate(44100)
    .setEncoding(AudioFormat.ENCODING_PCM_16BIT)
    .setChannelMask(AudioFormat.CHANNEL_IN_MONO)
    .build()
val minBufferSize = AudioRecord.getMinBufferSize(
    44100,
    AudioFormat.CHANNEL_IN_MONO,
    AudioFormat.ENCODING_PCM_16BIT
)
val audioRecord = AudioRecord(
    MediaRecorder.AudioSource.MIC,
    44100,
    AudioFormat.CHANNEL_IN_MONO,
    AudioFormat.ENCODING_PCM_16BIT,
    minBufferSize * 2 // 扩大缓冲区避免丢包
)

// 启动采集与处理线程
var isRecording = true
val recordThread = Thread {
    audioRecord.startRecording()
    val buffer = ByteArray(minBufferSize)
    while (isRecording) {
        val readSize = audioRecord.read(buffer, 0, buffer.size)
        if (readSize > 0) {
            // 复制两份缓冲区，分别给识别和录音模块
            val sttBuffer = buffer.copyOfRange(0, readSize)
            val saveBuffer = buffer.copyOfRange(0, readSize)

            // 喂给Vosk识别引擎
            voskRecognizer.acceptWaveForm(sttBuffer, readSize)
            val result = voskRecognizer.result
            // 处理识别结果（比如实时显示）

            // 写入PCM文件（后续可转码）
            fileOutputStream.write(saveBuffer)
        }
    }
    audioRecord.stop()
    audioRecord.release()
    fileOutputStream.close()
}
recordThread.start()