直播间源码搭建Android音频开发的基础知识

作者：手机用户2602913753 | 来源：互联网 | 2023-10-10 11:17

直播间源码搭建Android音频开发的基础知识导读人的说话频率基本上为300Hz3400Hz，但是人耳朵听觉频率基本上为20Hz20000Hz。对于人类的语音信号而言，实际处理一般

直播间源码搭建Android音频开发的基础知识

导读

人的说话频率基本上为300Hz3400Hz，但是人耳朵听觉频率基本上为20Hz20000Hz。

对于人类的语音信号而言，实际处理一般经过以下步骤：
人嘴说话——>声电转换——>抽样（模数转换）——>量化（将数字信号用适当的数值表示）——>编码（数据压缩）——>
传输（网络或者其他方式）
——> 解码（数据还原）——>反抽样（数模转换）——>电声转换——>人耳听声。

抽样率

实际中，人发出的声音信号为模拟信号，想要在实际中处理必须为数字信号，即采用抽样、量化、编码的处理方案。
处理的第一步为抽样，即模数转换。
简单地说就是通过波形采样的方法记录1秒钟长度的声音，需要多少个数据。
根据奈魁斯特（NYQUIST）采样定理，用两倍于一个正弦波的频繁率进行采样就能完全真实地还原该波形。
所以，对于声音信号而言，要想对离散信号进行还原，必须将抽样频率定为40KHz以上。实际中，一般定为44.1KHz。
44.1KHz采样率的声音就是要花费44000个数据来描述1秒钟的声音波形。
原则上采样率越高，声音的质量越好，采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级。
22.05 KHz只能达到FM广播的声音品质，44.1KHz则是理论上的CD音质界限，48KHz则已达到DVD音质了。

码率

对于音频信号而言，实际上必须进行编码。在这里，编码指信源编码，即数据压缩。如果，未经过数据压缩，直接量化进行传输则被称为PCM（脉冲编码调制）。

要算一个PCM音频流的码率是一件很轻松的事情，采样率值×采样大小值×声道数 bps。

一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的WAV文件，它的数据速率则为 44.1K×16×2 =1411.2 Kbps。

我们常说128K的MP3，对应的WAV的参数，就是这个1411.2 Kbps，这个参数也被称为数据带宽，它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率，即176.4KB/s。
这表示存储一秒钟采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的音频信号，需要176.4KB的空间，1分钟则约为10.34M，这对大部分用户是不可接受的，尤其是喜欢在电脑上听音乐的朋友，要降低磁盘占用
只有2种方法，降低采样指标或者压缩。降低指标是不可取的，因此专家们研发了各种压缩方案。最原始的有DPCM、ADPCM，其中最出名的为MP3。
所以，采用了数据压缩以后的码率远小于原始码率。

一、发的主要应用有哪些？

音频播放器，录音机，语音电话，音视频监控应用，音视频直播应用，音频编辑/处理软件，蓝牙耳机/音箱，等等。

二、频开发的具体内容有哪些？

（1）音频采集/播放

（2）音频算法处理（去噪、静音检测、回声消除、音效处理、功放/增强、混音/分离，等等）

（3）音频的编解码和格式转换

（4）音频传输协议的开发（SIP，A2DP、AVRCP，等等）

三、音频应用的难点在哪？

延时敏感、卡顿敏感、噪声抑制（Denoise）、回声消除（AEC）、静音检测（VAD）、混音算法，等等。

四、音频开发基础概念有哪些？

在音频开发中，下面的这几个概念经常会遇到。

1. 采样率（samplerate）

采样就是把模拟信号数字化的过程，不仅仅是音频需要采样，所有的模拟信号都需要通过采样转换为可以用0101来表示的数字信号，示意图如下所示：

file

蓝色代表模拟音频信号，红色的点代表采样得到的量化数值。

采样频率越高，红色的间隔就越密集，记录这一段音频信号所用的数据量就越大，同时音频质量也就越高。

根据奈奎斯特理论，采样频率只要不低于音频信号最高频率的两倍，就可以无损失地还原原始的声音。

通常人耳能听到频率范围大约在20Hz～20kHz之间的声音，为了保证声音不失真，采样频率应在40kHz以上。常用的音频采样频率有：8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz、96kHz、192kHz等。

对采样率为44.1kHz的AAC音频进行解码时，一帧的解码时间须控制在23.22毫秒内。

通常是按1024个采样点一帧

分析：

1. AAC

一个AAC原始帧包含某段时间内1024个采样点相关数据。

用1024主要是因为AAC是用的1024点的mdct。

音频帧的播放时间=一个AAC帧对应的采样样本的个数/采样频率(单位为s)

采样率(samplerate)为 44100Hz，表示每秒 44100个采样点,

所以，根据公式,

音频帧的播放时长 = 一个AAC帧对应的采样点个数 / 采样频率

则，当前一帧的播放时间 = 1024 * 1000/44100= 23.22 ms(单位为ms)

48kHz采样率，

则，当前一帧的播放时间 = 1024 * 1000/48000= 21.333ms(单位为ms)

22.05kHz采样率，

则，当前一帧的播放时间 = 1024 * 1000/22050= 46.439ms(单位为ms)

2. MP3

mp3 每帧均为1152个字节，

则：

每帧播放时长 = 1152 * 1000 / sample_rate

例如：sample_rate = 44100HZ时，

计算出的时长为26.122ms，

这就是经常听到的mp3每帧播放时间固定为26ms的由来。

2. 量化精度（位宽）

上图中，每一个红色的采样点，都需要用一个数值来表示大小，这个数值的数据类型大小可以是：4bit、8bit、16bit、32bit等等，位数越多，表示得就越精细，声音质量自然就越好，当然，数据量也会成倍增大。

常见的位宽是：8bit 或者 16bit

3. 声道数（channels）

由于音频的采集和播放是可以叠加的，因此，可以同时从多个音频源采集声音，并分别输出到不同的扬声器，故声道数一般表示声音录制时的音源数量或回放时相应的扬声器数量。

单声道（Mono）和双声道（Stereo）比较常见，顾名思义，前者的声道数为1，后者为2

4. 音频帧（frame）

是用于测量显示帧数的量度。所谓的测量单位为每秒显示帧数(Frames per Second，简称：FPS）或“赫兹”（Hz）。

音频跟视频很不一样，视频每一帧就是一张图像，而从上面的正玄波可以看出，音频数据是流式的，本身没有明确的一帧帧的概念，在实际的应用中，为了音频算法处理/传输的方便，一般约定俗成取2.5ms~60ms为单位的数据量为一帧音频。

这个时间被称之为“采样时间”，其长度没有特别的标准，它是根据编×××和具体应用的需求来决定的，我们可以计算一下一帧音频帧的大小：

假设某通道的音频信号是采样率为8kHz，位宽为16bit，20ms一帧，双通道，则一帧音频数据的大小为：

int size = 8000 x 16bit x 0.02s x 2 = 5120 bit = 640 byte

五、常见的音频编码方式有哪些？

上面提到过，模拟的音频信号转换为数字信号需要经过采样和量化，量化的过程被称之为编码，根据不同的量化策略，产生了许多不同的编码方式，常见的编码方式有：PCM 和 ADPCM，这些数据代表着无损的原始数字音频信号，添加一些文件头信息，就可以存储为WAV文件了，它是一种由微软和IBM联合开发的用于音频数字存储的标准，可以很容易地被解析和播放。

我们在音频开发过程中，会经常涉及到WAV文件的读写，以验证采集、传输、接收的音频数据的正确性。

六、常见的音频压缩格式有哪些？

首先简单介绍一下音频数据压缩的最基本的原理：因为有冗余信息，所以可以压缩。

（1）频谱掩蔽效应：人耳所能察觉的声音信号的频率范围为20Hz～20KHz，在这个频率范围以外的音频信号属于冗余信号。

（2）时域掩蔽效应：当强音信号和弱音信号同时出现时，弱信号会听不到，因此，弱音信号也属于冗余信号。

下面简单列出常见的音频压缩格式：

MP3，AAC，OGG，WMA，Opus，FLAC，APE，m4a，AMR，等等

七、Adndroid VoIP相关的开源应用有哪些？

imsdroid，sipdroid，csipsimple，linphone，WebRTC 等等

八、音频算法处理的开源库有哪些？

speex、ffmpeg，webrtc audio module（NS、VAD、AECM、AGC），等等

九、Android提供了哪些音频开发相关的API？

音频采集： MediaRecoder，AudioRecord

音频播放： SoundPool，MediaPlayer，AudioTrack

音频编解码： MediaCodec

NDK API： OpenSL ES

十、音频开发的延时标准是什么？

ITU-TG.114规定，对于高质量语音可接受的时延是300ms。一般来说，如果时延在300～400ms，通话的交互性比较差，但还可以接受。时延大于400ms时，则交互通信非常困难。

推荐阅读

web
如何使用PHP向系统日历中添加事件？

本文介绍了如何使用PHP向系统日历中添加事件的方法，通过使用PHP技术可以实现自动添加事件的功能，从而实现全局通知系统和迅速记录工具的自动化。同时还提到了系统exchange自带的日历具有同步感的特点，以及使用web技术实现自动添加事件的优势。 ... [详细]

蜡笔小新 2023-12-14 21:02:28
byte
C#生成随机数的三种方法及其问题分析

本文介绍了C#中生成随机数的三种方法，并分析了其中存在的问题。首先介绍了使用Random类生成随机数的默认方法，但在高并发情况下可能会出现重复的情况。接着通过循环生成了一系列随机数，进一步突显了这个问题。文章指出，随机数生成在任何编程语言中都是必备的功能，但Random类生成的随机数并不可靠。最后，提出了需要寻找其他可靠的随机数生成方法的建议。 ... [详细]

蜡笔小新 2023-12-14 14:15:30
byte
WebSocket与Socket.io的理解

WebSocketprotocol是HTML5一种新的协议。它的最大特点就是，服务器可以主动向客户端推送信息，客户端也可以主动向服务器发送信息，是真正的双向平等对话，属于服务器推送 ... [详细]

蜡笔小新 2023-12-12 19:35:15
byte
OkHttp3的基本使用及其特性

本文介绍了OkHttp3的基本使用和特性，包括支持HTTP/2、连接池、GZIP压缩、缓存等功能。同时还提到了OkHttp3的适用平台和源码阅读计划。文章还介绍了OkHttp3的请求/响应API的设计和使用方式，包括阻塞式的同步请求和带回调的异步请求。 ... [详细]

蜡笔小新 2023-12-10 22:46:04
client
Android跨进程通信IPC之9——Binder通信机制

移步系列Android跨进程通信IPC系列1Android整体架构Android系统架构及系统源码目录Android系统架构 ... [详细]

蜡笔小新 2023-10-16 19:18:54
main
JS进修笔记——闭包的运转机制和作用域

本文介绍了闭包的定义和运转机制，重点解释了闭包如何能够接触外部函数的作用域中的变量。通过词法作用域的查找规则，闭包可以访问外部函数的作用域。同时还提到了闭包的作用和影响。 ... [详细]

蜡笔小新 2023-12-14 18:45:00
string
Python高级之网络编程及TCP/IP协议簇的OSI七层模型介绍

本文介绍了Python高级网络编程及TCP/IP协议簇的OSI七层模型。首先简单介绍了七层模型的各层及其封装解封装过程。然后讨论了程序开发中涉及到的网络通信内容，主要包括TCP协议、UDP协议和IPV4协议。最后还介绍了socket编程、聊天socket实现、远程执行命令、上传文件、socketserver及其源码分析等相关内容。 ... [详细]

蜡笔小新 2023-12-14 18:16:27
select
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
select
[译]技术公司十年经验的职场生涯回顾

本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同，令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望，认为人类有能力不断改善自己。 ... [详细]

蜡笔小新 2023-12-14 11:31:05
select
JavaScript设计模式之策略模式（Strategy Pattern）的优势及应用

本文介绍了JavaScript设计模式之策略模式（Strategy Pattern）的定义和优势，策略模式可以避免代码中的多重判断条件，体现了开放-封闭原则。同时，策略模式的应用可以使系统的算法重复利用，避免复制粘贴。然而，策略模式也会增加策略类的数量，违反最少知识原则，需要了解各种策略类才能更好地应用于业务中。本文还以员工年终奖的计算为例，说明了策略模式的应用场景和实现方式。 ... [详细]

蜡笔小新 2023-12-14 09:31:45
client
计算机存储系统的层次结构及其优势

本文介绍了计算机存储系统的层次结构，包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体，形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低，使得整体存储系统的平均价格降低。同时，高速缓存的存取速度可以和CPU的工作速度相匹配，进一步提高程序执行效率。 ... [详细]

蜡笔小新 2023-12-13 17:32:41
input
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新 2023-12-13 16:05:14
byte
Redis底层数据结构之压缩列表的介绍及实现原理

本文介绍了Redis底层数据结构之压缩列表的概念、实现原理以及使用场景。压缩列表是Redis为了节约内存而开发的一种顺序数据结构，由特殊编码的连续内存块组成。文章详细解释了压缩列表的构成和各个属性的含义，以及如何通过指针来计算表尾节点的地址。压缩列表适用于列表键和哈希键中只包含少量小整数值和短字符串的情况。通过使用压缩列表，可以有效减少内存占用，提升Redis的性能。 ... [详细]

蜡笔小新 2023-12-12 16:06:05
copy
手机移动端HTML5和JavaScript如何实现视频上传和压缩视频质量？

本文讨论了在手机移动端如何使用HTML5和JavaScript实现视频上传并压缩视频质量，或者降低手机摄像头拍摄质量的问题。作者指出HTML5和JavaScript无法直接压缩视频，只能通过将视频传送到服务器端由后端进行压缩。对于控制相机拍摄质量，只有使用JAVA编写Android客户端才能实现压缩。此外，作者还解释了在交作业时使用zip格式压缩包导致CSS文件和图片音乐丢失的原因，并提供了解决方法。最后，作者还介绍了一个用于处理图片的类，可以实现图片剪裁处理和生成缩略图的功能。 ... [详细]

蜡笔小新 2023-12-12 15:58:44
input
Android中的assets目录和raw目录的区别和用法

本文介绍了Android中的assets目录和raw目录的共同点和区别，包括获取资源的方法、目录结构的限制以及列出资源的能力。同时，还解释了raw目录中资源文件生成的ID，并说明了这些目录的使用方法。 ... [详细]

蜡笔小新 2023-12-11 12:26:25