名词解释--音频技术-火山引擎

文档中心

立即注册

导航

名词解释

最近更新时间：2021.12.21 19:55:23首次发布时间：2021.08.25 18:09:53

名词解释

学习音频的基础概念可以帮助我们更快更好的使用SDK。在这一部分，我们不从盘古开天辟地开始说起，只向大家介绍音频处理中最为重要的几个概念，例如声音、音频信号等。

1.声音及其七要素

声音是由物体振动或一系列的物体振动，并由空气传播产生的。任何引起这一空气振动的物体被称为声源。声源可以是琴弦、铃铛、人声等等。

声音的传播靠的是空气分子间的挤压和扩张。在受挤压的区域，分子会被挤压在一起；在扩张的区域，相互间呈现吸引力的分子数量要少一些。因此，挤压区的分子密度高，扩张区的分子密度低。

下面将介绍声音的七个要素，它们是：振幅、频率、相位、声速、波长、谐波和声音包络。

1.1 振幅

振幅是指声波振动时离轴的距离，它与音量大小密切相关。

振幅越大，音量越大；振幅越小，音量越小。人耳之所以能够感受到音量的大小，是由空气作用在耳膜上的压强大小决定的。声波的振幅越大，声压级也就越大。

振幅的单位是 “分贝(dB)”。大多数人可以听出振幅 3dB 变化的大小差异，而受过训练的耳朵，可以分辨出更为微弱的振幅差异。在专业的圈子里，人们 “振幅提升” 称作 “提升(boost)”，把 “振幅减低” 称作 “衰减(cut/attenuation)”；同时，用 “音量” 这个词来替换 “振幅”。通常用 “+” 来表示提升，如 “+3dB”，而用 "-" 来表示衰减，如 “-3dB”。

以下，我们从生活中找出一些常见的例子，以及它们相对应的音量分贝值：(声压级SPL)

0dB，几乎静寂
40 ~ 50 dB，普通房间的本底噪声
50 ~ 60 dB，窃窃私语
60 ~ 75 dB，正常谈话
80 ~ 85 dB，最优秀的监听音量
90 dB，工厂车间噪声，长时间暴露在此音量中有损听力
100 dB，婴儿啼哭
110 dB，割草机工作噪声、车辆鸣笛
120 dB，人类听感痛阈，有损听力
140 dB，鼓槌从距离鼓皮 1 米处落下，强击军鼓
150 ~ 160 dB，喷气式飞机发动机噪声

1.2 频率

声波每秒循环往复的次数，称为频率。

如果你学习乐器，你可能把乐器的标准音 A 定在 440 上。这里的 440 ，指的是声波的频率。

频率的单位是赫兹（Hz）。人类对频率的听音范围是 20 ~ 20000 Hz。频率直接与音高有关，不同的乐器有着不同的频率范围。下图可以帮助你确定不同乐器的频率范围，以及钢琴每个音符所对应的基本频率。钢琴最低音是 A，对应频率 27.5 Hz。我们可以用 “均衡器（EQ）” 来对某频率或者某频率区间的振幅进行提升或者衰减。

不同的频率区域有各自明确的听感特点，通常会有一些常用的形容词来描述这些不同的区域。

低频：20 ~ 200 Hz 多被认为是低频。低频的方向性比较弱，具有力量感，听感体积比较大。另外，如果录音作品中的低频太多，对于音响整体效果具有毁灭性作用。

中频：中频常被定义在 200Hz ~ 5kHz 之间的区域，这是人耳最为敏感的听音区域。中频的方向性比低频要好，同时，它会使音频听上去更 “贴脸”、更具有冲击感、更锋利。如果录音作品中，中频不足，会导致整体声音昏暗、冷淡、柔弱；而中频过度的话，则可能过早导致耳朵疲惫。

高频：高频通常在 5kHz ~ 20kHz 之间，它具有明显的方向性。提升高频区域会让声音更具空气感、更明亮、更灿烂、更薄。该频段所含能量是所有频率上最弱的。高频可以让声音具有临场感，并且不会增加耳朵的疲劳感。缺少高频的声音，会显得暗淡、有距离感、甚至有可能使整个录音模糊不清。

中频是音乐中信息最大、最重要的频段，所以通常又会把中频再细分为三个区间：

中低频：200Hz ~ 700Hz，暗淡、中空的音色

中中频：700Hz ~ 2kHz，更具攻击性、更有活力的音色

中高频：2 ~ 5 kHz，有临场感的音色

1.3 相位

相位指的是波形上的某质点随波做周期运动时，在某瞬间所处的位置。它与频率有一定关系。相位的计量单位的是 “度”。

同相的两列波相遇时，振幅会叠加，音量提升；而两列波反相相遇时，相互会相互抵消，振幅衰减，使声音消失。这一个概念在现代设备中广泛使用，例如降噪耳机，或者车辆的消音器，它们具有消除外界噪声或者发动机噪声的功效。然而两列波不可能完全同相或者反相，而是随机在 0 ~ 359 度之间。相位的问题可能导致有些频率的音量被增大，而另一些频率音量更小。这种在频率上不同的抵消或者叠加的情况，会导致不同的场景有着不同的声音特色。例如在浴室中唱歌就有种在唱KTV的感觉。

1.4 声速

声速是声音的传播速度。声速在 20 摄氏度下大约是 340 米每秒。声速会随着温度的不同而变化。温度越高，声速越快；温度越低，声速越慢。

1.5 波长

声波上两个相邻波峰之间的距离，即为波长。

用声速除以频率，可以算出波长，也就是两个波峰之间的距离。频率越低，波长越长，能量较大。高频的波长较短，它使得声音的能量较弱，同时更具有方向性。

1.6 谐波

音符的丰满度和声音特点由谐波决定，我们常说，谐波决定音色。乐器的每一个音符，都有它的基本频率，即基波。而谐波，则是与基波 “混合” 在一起的。

基波就是纯的简谐波，但大多数声音除了基波之外，还包含更多频率。在音乐里，乐器的音色由基波和这种乐器独有的谐波组合而成。这也就是为什么各种乐器在弹奏同一个音符时，却有着不同的听感。音色柔滑的乐器，如长笛，由它演奏的音符的基波所激发的谐波要少一些，这使得基波本身听上去更为明显。音色更具棱角的乐器，如小号，声音中暗含更多谐波，而其基波就显得不那么突出了。

谐波的计算也非常简单。例如你在演奏低音提琴上的低音 E，这个音符的基波大约是 41 Hz，通过把这个数字简单地乘以2、3、或者 4 等，我们就可以简单的算出几个谐波频率：82Hz，2次谐波；123Hz，3次谐波；164Hz，4次谐波。

另外，谐波又分偶次谐波和奇次谐波。偶次谐波更加平滑、更悦耳，让听者更舒服；而奇次谐波则更容易让听者烦躁。

1.7 声音包络

声音包络的特性与谐波一样：帮助听众区别两位歌手或者乐器。声音包络包括四个不同的元素：起音（Attack）、衰减（Decay）、保持（Sustain）和释音（Release），整个过程简写为 “ADSR”

起音是音符或者声音包络的第一阶段，它定义了声音从静寂到峰值音量这一区间。

衰减是起音之后的阶段，它指声音从峰值衰减到某一音量的中间阶段。

保持是指声音包络在整体过程中，音量维持相对稳定的一个阶段。

最后是释音阶段，指从保持阶段的中等音量恢复到静寂状态的区段。

2. 声音数字化

现实中声波是个连续的量，不能由计算机直接处理，必须将其数字化。

2.1 步骤

将声音数字化的过程通常需要三步：

第一、采样。所谓采样就是每隔一段时间去观测声音的值，用不连续的样本替换原本连续的样本。一秒钟内抽取的点越多，获得的信息也就越完整。 采样率 指的是在记录声音时，每秒采样的个数，单位是Hz。

第二、量化，即用数字来表示音频幅度。量化深度，也称为采样精度，是模拟信号转换为二进制数字信号的位数。量化深度越高，采样的数字信号精度越高。比如，量化深度为 16 bit，采样的数字信号幅度就有 2^16 = 65536 个档位。音频量化深度一般有 8 bit、16 bit、20bit、24bit 和 32bit 等。

第三、编码，即将量化后的数字转为二进制。

2.2 声音数字化三要素


采样频率（sample rate)	量化位数（bit depth)	声道数（Number of Channels）
每秒种抽取声音幅度样本的次数	每个采样点用多少二进制位表示数据范围	声音通道的个数
采样率越高，声音质量越高，数据量也越大	量化位数越多，音质越好，数据量也就越大	立体声比单声道表现力更丰富，但数据量翻倍
常用的采样率： * 8,000 Hz - 电话所用采样率, 对于人的说话已经足够 * 11,025 Hz - AM调幅广播所用采样率 * 22,050 Hz - 无线电广播所用采样率 * 32,000 Hz - miniDV 数码视频 camcorder、DAT (LP mode)所用采样率 * 44,100 Hz - 音频 CD, 也常用于 MPEG-1 音频（VCD, SVCD, MP3）所用采样率	* 8 bit，共 256 个量级，也就是将幅度划分为 256 个等级 * 16 bit，共 65536 个量级，达到了CD的标准 * 32 bit，共 4294967296 个量级，完全超出人耳的辨识范围了。	* 单声道并非意味着只有一个喇叭发声，通常会处理成两个喇叭输出同一个声道的声音 * 立体声两个喇叭都发声（通常左右声道有分工），更能感受到空间效果。 * 除了单双声道外，还有其他的更多声道，例如 5.1 、7.1 等等

3. 数据格式

3.1 Planar 与 Interleave

Planar和Interleave描述了pcm数据的格式
Planar： 左右声道分开存放，先放左声道后再接着右声道

L1 L2 .... L1024 R1 R2 .... R1024

Interleave 左右声道数据交织存放

L1 R1 L2 R2 .... L1024 R1024