陈老师开讲：Python获取实时语音数据

作者：戴安娜DianaKok | 来源：互联网 | 2023-09-18 18:59

介绍使用Python让计算机获取

作为一个正经八百的技术男，绞尽脑汁想把文章写得轻松有趣一些，但把文章转给朋友，直接回复我“典型初中教材”。技术男表示很受打击，为了改变码农形象，我冥思苦想了十分钟，最后的最后，我终于决定：不做改变！能坚持读完这篇文章的，都是懂我之人！那么让我们一起来学习初中教材吧。

从语音到自然语言处理的整个流程中，最基本的一步是要得到语音数据，有了语音数据我们就可以转换为文字，然后做各种应用，诸如机器翻译、问答系统等。如果你能够实现一个简易的系统，例如让机器直接和人对话，或者让机器识别人的指令进行一系列的操作，是不是挺酷的一件事？这一篇我们就来看看当人对计算机说话的时候，计算机怎么获取语音数据，以及这中间常见的几种问题。

Python是当前机器学习和数据处理最常用的语言，我们选用基于python的PyAudio库来实现。PyAudio底层是基于一个跨平台的音频IO库PortAudio，使用PyAudio可以在常见的Linux、Windows和Mac平台录音和播放音频。此次我们以Mac平台为例描述主要的步骤，除安装之外，各种平台没有区别。

工具安装

只需要安装PortAudio和PyAudio：

brew install portaudio

pip install pyaudio

Windows和Linux平台使用各自平台的安装方式安装PortAudio，然后使用pip安装PyAudio。关于创建python虚拟环境和如何使用pip等本文不做介绍。

获取数据

获取数据分为两种方式：阻塞模式和非阻塞模式。以下分别描述。

1. 通过阻塞模式获取数据

PyAudio从声卡得到数据后放入一个host buffer(host buffer大小自行设定)，我们以自行指定的数据块大小从host buffer中读取，每次读取时阻塞直到这个指定大小的数据块读取完成。以下代码使用阻塞模式录音20秒，存入名为output.wav的文件。

import pyaudio
import wave
CHUNK = 512
FORMAT = pyaudio.paInt16
CHANNELS = 2
RATE = 48000
BUFFER_SIZE = 1024
RECORD_SECOnDS= 20
WAVE_OUTPUT_FILENAME = "output.wav"
p = pyaudio.PyAudio()
stream = p.open(format=FORMAT,
channels=CHANNELS,
rate=RATE,
input=True,
frames_per_buffer=BUFFER_SIZE)
frames = []
for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
data = stream.read(CHUNK)
frames.append(data)
stream.stop_stream()
stream.close()
p.terminate()
wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')
wf.setnchannels(CHANNELS)
wf.setsampwidth(p.get_sample_size(FORMAT))
wf.setframerate(RATE)
wf.writeframes(b''.join(frames))
wf.close()

其中 input=True表示录数据，如果是output=True则表示播放数据。BUFFER_SIZE=1024 表示host buffer存1024个数值，CHUNK=512 表示每次读取512个数，CHANNELS=2 表示声卡是两通道的，RATE=48000表示声卡以每秒48k的频率采样数据。录音20秒，需要读取数据的次数为(48000/512)*20次。然后把所有数据存入wav文件，播放wav文件听听就是刚才录音的内容。

2. 通过非阻塞模式获取数据

上面的阻塞模式，如果从host buffer读取并处理数据的速度比实时往host buffer填入数据的速度慢，比如读取数据后做一些数据操作，那么就会存在数据丢帧现象。一个解决的办法就是通过非阻塞模式读取。

使用非阻塞模式，PyAudio使用一个单独的线程调用自定义的callback函数，callback里获取到及时数据不用阻塞等待，进而可以进行及时操作。下面是实现同样功能录音20秒的例子。

import pyaudio
import wave
import time
frames = []
CHUNK = 512
FORMAT = pyaudio.paInt16
CHANNELS = 2
RATE = 48000
RECORD_SECOnDS= 20
WAVE_OUTPUT_FILENAME = "output.wav"
def callback(in_data, frame_count, time_info, status):
frames.append(in_data)
return (None, pyaudio.paContinue)
p = pyaudio.PyAudio()
stream = p.open(format=FORMAT,
channels=CHANNELS,
rate=RATE,
input=True,
frames_per_buffer=CHUNK,
stream_callback=callback)

stream.start_stream()
time.sleep(RECORD_SECONDS)
stream.stop_stream()
stream.close()
p.terminate()
wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')
wf.setnchannels(CHANNELS)
wf.setsampwidth(p.get_sample_size(FORMAT))
wf.setframerate(RATE)
wf.writeframes(b''.join(frames))
wf.close()

p.open()函数里和阻塞方式有两个区别, frames_per_buffer=CHUNK表示每次往callback里发送CHUNK大小的数据，stream_callback=callback设置要调用的callback方法名。callback()里in_data就是每次得到的数据，我们把它存在frames list中。stream.start_stream()启动stream，然后sleep 20秒，此时PyAudio一直在调用callback()发送数据。最后我们把frames list里的数据存进wav文件。

常见问题和解决方案

上述两种获取语音的方式很直观，大家一看就知道怎么用了，但是在实际应用中会遇到各种问题，介绍这些问题和对应的解决方法才是我想讲的重点，下面列举就我所遇到过的问题。

问题1）Input overflowed异常

在使用阻塞模式的时候，经常会遇到下面的错误

OSError: [Errno -9981] Input overflowed

有多种原因会导致这个错误，最常见的原因是读取并处理数据的速度慢于实时语音产生的速度，host buffer撑满了。

避免错误让程序继续执行的一个办法是读取数据时增加一个参数：

data = stream.read(CHUNK, exception_on_overflow=False)

意思是如果有overflowed错误不报告，实际是忽略了错误，没有真正解决问题，会丢掉一些帧。

真正解决方法是增大host buffer参数frames_per_buffer的值,这种方法只适用于之后读取和处理数据速度能追上产生数据的速度，host buffer设置大一点作为缓冲，否则的话buffer再大也会撑满，只能用callback模式。

问题2）callback方式也丢帧

如果处理数据的速度一直都慢，赶不上产生数据的速度，就算用callback也会丢掉一些帧。此时可以在callback的基础上获得所有数据，存入自定义的存储比如队列或者文件等，再另行处理。

问题3）获取到的数据不正确

其中一个原因是open()中的参数和声卡真实参数不匹配，比如声卡通道数，声卡采样率。下面是我的电脑声卡默然参数，通道数2，采样率48k。如果脚本中参数设置不对，采集到的数据不正确或者脚本会报错。

问题4）实际需要的数据采样率比声卡最低采样率低

比如你的声卡最低采样率为44.1k，但是你的应用需要24k的数据，没法直接采集到24k的数据。这时可以把声卡采样率设置为48k，然后每两个采样数据取一个，或者用其他降采样的方法转换，比如scipy.signal.resample等，要根据实际情况测试降采样的方法是否可行。

问题5）从多通道获取一个通道数据不正确

多通道获得的数据是交织在一起的，比如2通道声卡，需要隔一个数据取一个才是其中一个通道的数据。

本文主要关注数据获取，是stream流中的input stream。如果要播放音频，用同样的方法处理output stream即可，也可以同时处理，不加累述。希望阅读本文后你对如何让电脑获取音频数据有了一个全面的了解。

推荐阅读

ip
开源Keras Faster RCNN模型介绍及代码结构解析

本文介绍了开源Keras Faster RCNN模型的环境需求和代码结构，包括FasterRCNN源码解析、RPN与classifier定义、data_generators.py文件的功能以及损失计算。同时提供了该模型的开源地址和安装所需的库。 ... [详细]

蜡笔小新 2023-12-10 17:44:07
ip
CentOS安装Python2.7.2的步骤和注意事项

本文介绍了在CentOS上安装Python2.7.2的详细步骤，包括下载、解压、编译和安装等操作。同时提供了一些注意事项，以及测试安装是否成功的方法。 ... [详细]

蜡笔小新 2023-12-12 13:54:31
ip
Python语法上的区别及注意事项

本文介绍了Python2x和Python3x在语法上的区别，包括print语句的变化、除法运算结果的不同、raw_input函数的替代、class写法的变化等。同时还介绍了Python脚本的解释程序的指定方法，以及在不同版本的Python中如何执行脚本。对于想要学习Python的人来说，本文提供了一些注意事项和技巧。 ... [详细]

蜡笔小新 2023-12-14 11:27:53
ip
基于dlib的人脸68特征点提取(眨眼张嘴检测)python版本

文章目录引言开发环境和库流程设计张嘴和闭眼的检测引言(1)利用Dlib官方训练好的模型“shape_predictor_68_face_landmarks.dat”进行68个点标定 ... [详细]

蜡笔小新 2023-12-12 13:27:42
ip
Python操作MySQL（pymysql模块）详解及示例代码

本文介绍了使用Python操作MySQL数据库的方法，详细讲解了pymysql模块的安装和连接MySQL数据库的步骤，并提供了示例代码。内容涵盖了创建表、插入数据、查询数据等操作，帮助读者快速掌握Python操作MySQL的技巧。 ... [详细]

蜡笔小新 2023-12-10 17:50:06
ip
Python程序安全运行的三个条件及预防措施

Python已成为全球最受欢迎的编程语言之一，然而Python程序的安全运行存在一定的风险。本文介绍了Python程序安全运行需要满足的三个条件，即系统路径上的每个条目都处于安全的位置、"主脚本"所在的目录始终位于系统路径中、若python命令使用-c和-m选项，调用程序的目录也必须是安全的。同时，文章还提出了一些预防措施，如避免将下载文件夹作为当前工作目录、使用pip所在路径而不是直接使用python命令等。对于初学Python的读者来说，这些内容将有所帮助。 ... [详细]

蜡笔小新 2023-12-09 10:20:23
cmd
通过Anaconda安装tensorflow，并安装运行spyder编译器的完整教程

本文提供了一个完整的教程，介绍了如何通过Anaconda安装tensorflow，并安装运行spyder编译器。文章详细介绍了安装Anaconda、创建tensorflow环境、安装GPU版本tensorflow、安装和运行Spyder编译器以及安装OpenCV等步骤。该教程适用于Windows 8操作系统，并提供了相关的网址供参考。通过本教程，读者可以轻松地安装和配置tensorflow环境，以及运行spyder编译器进行开发。 ... [详细]

蜡笔小新 2023-12-09 09:46:32
cmd
协程greenletyieldasyncioasync / await协程意义异步编程事件循环快速上手awaitTask对象

本文介绍了协程的概念和意义，以及使用greenlet、yield、asyncio、async/await等技术实现协程编程的方法。同时还介绍了事件循环的作用和使用方法，以及如何使用await关键字和Task对象来实现异步编程。最后还提供了一些快速上手的示例代码。 ... [详细]

蜡笔小新 2023-12-09 01:35:03
cmd
Python对Excel文件的读取方法及模块安装

本文介绍了Python对Excel文件的读取方法，包括模块的安装和使用。通过安装xlrd、xlwt、xlutils、pyExcelerator等模块，可以实现对Excel文件的读取和处理。具体的读取方法包括打开excel文件、抓取所有sheet的名称、定位到指定的表单等。本文提供了两种定位表单的方式，并给出了相应的代码示例。 ... [详细]

蜡笔小新 2023-12-14 19:49:05
ip
clone的fork与pthread_create创建线程有何不同

本文讨论了clone的fork与pthread_create创建线程的不同之处。进程是一个指令执行流及其执行环境，其执行环境是一个系统资源的集合。在调用系统调用fork创建一个进程时，子进程只是完全复制父进程的资源，这样得到的子进程独立于父进程，具有良好的并发性。但是二者之间的通讯需要通过专门的通讯机制，另外通过fork创建子进程系统开销很大。因此，在某些情况下，使用clone或pthread_create创建线程可能更加高效。 ... [详细]

蜡笔小新 2023-12-12 20:00:06
filter
Python使用Pillow包生成验证码图片的方法

本文介绍了使用Python中的Pillow包生成验证码图片的方法。通过随机生成数字和符号，并添加干扰象素，生成一幅验证码图片。需要配置好Python环境，并安装Pillow库。代码实现包括导入Pillow包和随机模块，定义随机生成字母、数字和字体颜色的函数。 ... [详细]

蜡笔小新 2023-12-10 16:51:25
list
Pandas 基础(3) - 生成 Dataframe 的几种方式总结

本文总结了使用不同方式生成 Dataframe 的方法，包括通过CSV文件、Excel文件、python dictionary、List of tuples和List of dictionary。同时介绍了一些注意事项，如使用绝对路径引入文件和安装xlrd包来读取Excel文件。 ... [详细]

蜡笔小新 2023-12-10 12:59:34
audio
如何用GStreamer删除H264格式的中间部分视频

本文讨论了如何使用GStreamer来删除H264格式视频文件中的中间部分，而不需要进行重编码。作者提出了使用gst_element_seek(...)函数来实现这个目标的思路，并提到遇到了一个解决不了的BUG。文章还列举了8个解决方案，希望能够得到更好的思路。 ... [详细]

蜡笔小新 2023-12-10 08:46:57
cmd
python中安装并使用redis相关的知识

本文介绍了在python中安装并使用redis的相关知识，包括redis的数据缓存系统和支持的数据类型，以及在pycharm中安装redis模块和常用的字符串操作。 ... [详细]

蜡笔小新 2023-12-09 10:31:54
cmd
Window10+anaconda+python3.5.4+ tensorflow1.5+ keras(GPU版本）安装教程

Window10+anaconda+python3.5.4+ tensorflow1.5+ keras(GPU版本）安装教程 ... [详细]

蜡笔小新 2023-10-17 21:10:23

戴安娜DianaKok

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章