跳转至

实现麦克风录音并使用faster-whisper无文件读写地进行语音识别

约 1459 个字 • 203 行代码

前两天在搜索比较快速/轻量的语音识别模型时,发现了faster-whisper,测试了一下发现居然使用cpu也能跑,并且速度不慢准确率也不低。

由于我的应用场景中是需要使用麦克风先进行录音然后再进行识别的,faster-whisper官方仓库中给出的示例使用代码是读取文件进行识别的

官方示例代码
from faster_whisper import WhisperModel

model_size = "large-v3"

# Run on GPU with FP16
model = WhisperModel(model_size, device="cuda", compute_type="float16")

# or run on GPU with INT8
# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")
# or run on CPU with INT8
# model = WhisperModel(model_size, device="cpu", compute_type="int8")

segments, info = model.transcribe("audio.mp3", beam_size=5)

print("Detected language '%s' with probability %f" % (info.language, info.language_probability))

for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

而我之前搜索到的python中调用PyAudio库来使用麦克风录音的文章中,给出的代码也是使用wave包将音频输出保存成wav文件,

基于python的音频处理--调用麦克风录音 - 知乎

import pyaudio
import wave

chunk = 1024  # Record in chunks of 1024 samples
sample_format = pyaudio.paInt16  # 16 bits per sample
channels = 2
fs = 44100  # Record at 44100 samples per second
seconds = 3
filename = "output.wav"

p = pyaudio.PyAudio()  # Create an interface to PortAudio

print('Recording')

stream = p.open(format=sample_format,
                channels=channels,
                rate=fs,
                frames_per_buffer=chunk,
                input=True)

frames = []  # Initialize array to store frames

# Store data in chunks for 3 seconds
for i in range(0, int(fs / chunk * seconds)):
    data = stream.read(chunk)
    frames.append(data)

# Stop and close the stream 
stream.stop_stream()
stream.close()
# Terminate the PortAudio interface
p.terminate()

print('Finished recording')

# Save the recorded data as a WAV file
wf = wave.open(filename, 'wb')
wf.setnchannels(channels)
wf.setsampwidth(p.get_sample_size(sample_format))
wf.setframerate(fs)
wf.writeframes(b''.join(frames))
wf.close()

但是我觉得如果要进行文件的写入和读取,可能会消耗较多的时间,为什么不能直接就在程序的数据(内存)中把音频数据传输给faster-whipser模型进行识别呢?

于是查看 WhisperModel 中的 transcribe 方法的说明和部分具体代码

faster_whisper/transcribe.py
class WhisperModel:
    ...
    def transcribe(
        self,
        audio: Union[str, BinaryIO, np.ndarray],
        ...
    ) -> Tuple[Iterable[Segment], TranscriptionInfo]:
        """Transcribes an input file.

        Arguments:
          audio: Path to the input file (or a file-like object), or the audio waveform.
          ...
        """
        ...
        if not isinstance(audio, np.ndarray):
            audio = decode_audio(audio, sampling_rate=sampling_rate)
        ...

看到这两行代码

if not isinstance(audio, np.ndarray):
    audio = decode_audio(audio, sampling_rate=sampling_rate)

导致我最初以为应该要把音频数据转换成 np.ndarray 的形式,但是尝试了好一会都没能成功

除了了解到参数 audio 还可以传入 BinaryIOnp.ndarray 类型的数据之外,docstring中提供的信息也不是很多。

于是想到仓库中的issues里面可能有相关的提问,就去进行了搜索

Issues · SYSTRAN/faster-whisper: searching "is:issue raw"

看到了这个issue

Inputting the audio stream directly will report an error · Issue #335 · SYSTRAN/faster-whisper

exactstat的回复 让我意识到或许应该是使用 BinaryIO 这个类

So, it should be one of: 1) path to the file, 2) BinaryIO obj with the full file inside (see io package) 3) raw samples in a numpy array (with framerate 16000 hz).


因此,它应该是以下之一:1)文件路径,2)包含整个文件的 BinaryIO 对象(请参阅 io 包),3)numpy 数组中的原始样本(帧率为 16000 Hz)。

然后查看了一下这个类的具体代码,但是没有什么说明的信息,于是直接去询问deepseek

对话记录

You:

如何使用pyaudio使用麦克风录音得到BinaryIO类型的数据?

 

DeepSeek:

已深度思考(用时 16 秒)

嗯,用户想用pyaudio录音得到BinaryIO类型的数据。那我得先看看pyaudio怎么录音,然后怎么转成BinaryIO。首先,pyaudio录音的流程一般是初始化PyAudio对象,打开音频流,读取数据块,保存成二进制数据。然后,BinaryIO通常指的是内存中的字节流,可以用io.BytesIO来处理。

搜索到的网页里,网页1和网页8都提到使用pyaudio录音的基本步骤。比如,网页1的代码里用stream.read()读取音频数据,存到frames列表里,最后用wave保存。那如果不要保存到文件,而是存到BytesIO里,应该可以用BytesIO代替文件操作。

网页50提到了使用io.BytesIO来存储音频数据,然后通过wave模块写入BytesIO对象。用户的问题就是需要这样的转换,所以这应该是个关键点。网页50的代码示例中,他们创建了一个BytesIO对象,用wave.open打开它,并写入数据。这应该可以直接应用。

另外,网页129的代码里,录音后的数据也是用BytesIO保存,不过最后写入了文件。用户不需要保存文件,而是需要内存中的二进制数据,所以可以调整这部分代码,将frames写入BytesIO,而不是文件。

还有网页38提到非阻塞录音,使用回调函数将数据存入列表,然后处理。不过用户可能需要的是同步录音,所以用简单的循环读取可能更直接。

总结步骤应该是:初始化pyaudio,设置参数,打开输入流,读取数据到frames,然后用wave模块将frames写入BytesIO对象。这样就能得到BinaryIO类型的数据了。需要注意设置正确的wave参数,比如声道数、采样宽度、帧率等。这样生成的BytesIO对象就可以像文件一样操作,供后续处理使用。

要使用PyAudio实现麦克风录音并直接获取BinaryIO类型数据(如io.BytesIO对象),可通过以下步骤实现:


1. 安装依赖库

确保已安装pyaudiowave库:

pip install pyaudio

2. 代码实现

import pyaudio
import wave
import io

# 录音参数设置
FORMAT = pyaudio.paInt16  # 采样格式(16位整数)
CHANNELS = 1               # 单声道
RATE = 44100               # 采样率(Hz)
CHUNK = 1024               # 每次读取的音频块大小(单位:帧)
RECORD_SECONDS = 5         # 录音时长(秒)

# 初始化PyAudio对象
audio = pyaudio.PyAudio()

# 打开音频输入流
stream = audio.open(
    format=FORMAT,
    channels=CHANNELS,
    rate=RATE,
    input=True,
    frames_per_buffer=CHUNK
)

print("开始录音...")
frames = []

# 读取音频数据
for _ in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
    data = stream.read(CHUNK)
    frames.append(data)

print("录音结束")

# 关闭流和PyAudio对象
stream.stop_stream()
stream.close()
audio.terminate()

# 将音频数据写入BytesIO对象
audio_io = io.BytesIO()
with wave.open(audio_io, 'wb') as wf:
    wf.setnchannels(CHANNELS)
    wf.setsampwidth(audio.get_sample_size(FORMAT))  # 采样宽度(字节数)
    wf.setframerate(RATE)
    wf.writeframes(b''.join(frames))

# 重置指针以便后续读取
audio_io.seek(0)

# 此时audio_io即为BinaryIO类型数据,可直接用于上传或处理

关键步骤解析

  1. 参数设置:需指定采样格式、声道数、采样率等音频参数。例如,pyaudio.paInt16表示16位整数采样格式,适用于WAV文件。

  2. 音频流操作:通过stream.read(CHUNK)逐块读取音频数据,存入frames列表。

  3. 写入BytesIO:使用wave.open打开io.BytesIO对象,设置WAV文件头信息(声道数、采样宽度、帧率),并将音频数据写入内存。

  4. 数据重置:调用seek(0)将指针移动到起始位置,便于后续读取。


应用场景

  • 内存中处理:避免保存物理文件,适合实时音频处理或网络传输。

  • 兼容性:生成的BytesIO对象可无缝对接其他库(如librosa加载或requests上传)。


扩展优化

  • 异步录音:使用回调函数(stream_callback)实现非阻塞录音,适合实时处理。

  • 动态参数:通过pyaudio.PyAudio.get_device_info_by_index()获取麦克风设备信息,适配不同硬件。

  • 格式转换:结合pydub库将BytesIO数据转换为其他格式(如MP3)。


通过以上方法,可高效实现麦克风录音到内存流的转换,适用于需要即时处理或避免文件I/O的场景。

参照deepseek提供的回答,我将测试的代码修改成了

import pyaudio
import wave
import io

chunk = 1024  # Record in chunks of 1024 samples
sample_format = pyaudio.paInt16  # 16 bits per sample
channels = 2
fs = 44100  # Record at 44100 samples per second
seconds = 9
# filename = "output.wav"

p = pyaudio.PyAudio()  # Create an interface to PortAudio

print('Recording')

stream = p.open(format=sample_format,
                channels=channels,
                rate=fs,
                frames_per_buffer=chunk,
                input=True)

frames = []  # Initialize array to store frames

# Store data in chunks for 3 seconds
for i in range(0, int(fs / chunk * seconds)):
    data = stream.read(chunk)
    frames.append(data)

# Stop and close the stream 
stream.stop_stream()
stream.close()
# Terminate the PortAudio interface
p.terminate()

print('Finished recording')

# 将音频数据写入BytesIO对象
audio_io = io.BytesIO()

# Save the recorded data as a WAV file
wf = wave.open(audio_io, 'wb')
wf.setnchannels(channels)
wf.setsampwidth(p.get_sample_size(sample_format))
wf.setframerate(fs)
wf.writeframes(b''.join(frames))
wf.close()

# 重置指针以便后续读取
audio_io.seek(0)

from faster_whisper import WhisperModel

model_size = "distil-small.en"

# Run on GPU with FP16
# model = WhisperModel(model_size, device="cuda", compute_type="float16")

# or run on GPU with INT8
# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")
# or run on CPU with INT8
model = WhisperModel(model_size, device="cpu", compute_type="int8", download_root=".")

segments, info = model.transcribe(audio_io, beam_size=5)

print("Detected language '%s' with probability %f" % (info.language, info.language_probability))

for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

运行之后发现能够正确地进行识别了😄

Recording
Finished recording
Detected language 'en' with probability 1.000000
[0.00s -> 6.00s]  I like you. Do you like me?
[6.00s -> 8.00s]  I can hear you.

最后更新: 2025-03-26
创建日期: 2025-03-26

评论