You need to enable JavaScript to run this app.
导航

名词解释

最近更新时间2021.12.21 19:55:23

首次发布时间2021.08.25 18:09:53

名词解释

学习音频的基础概念可以帮助我们更快更好的使用SDK。在这一部分,我们不从盘古开天辟地开始说起,只向大家介绍音频处理中最为重要的几个概念,例如声音、音频信号等。

1.声音及其七要素

声音是由物体振动或一系列的物体振动,并由空气传播产生的。任何引起这一空气振动的物体被称为声源。声源可以是琴弦、铃铛、人声等等。

声音的传播靠的是空气分子间的挤压和扩张。在受挤压的区域,分子会被挤压在一起;在扩张的区域,相互间呈现吸引力的分子数量要少一些。因此,挤压区的分子密度高,扩张区的分子密度低。

下面将介绍声音的七个要素,它们是:振幅、频率、相位、声速、波长、谐波和声音包络。

1.1 振幅

振幅是指声波振动时离轴的距离,它与音量大小密切相关。

振幅越大,音量越大;振幅越小,音量越小。人耳之所以能够感受到音量的大小,是由空气作用在耳膜上的压强大小决定的。声波的振幅越大,声压级也就越大。

振幅的单位是 “分贝(dB)”。大多数人可以听出振幅 3dB 变化的大小差异,而受过训练的耳朵,可以分辨出更为微弱的振幅差异。在专业的圈子里,人们 “振幅提升” 称作 “提升(boost)”,把 “振幅减低” 称作 “衰减(cut/attenuation)”;同时,用 “音量” 这个词来替换 “振幅”。 通常用 “+” 来表示提升,如 “+3dB”,而用 "-" 来表示衰减,如 “-3dB”。

以下,我们从生活中找出一些常见的例子,以及它们相对应的音量分贝值:(声压级SPL)

  • 0dB,几乎静寂
  • 40 ~ 50 dB,普通房间的本底噪声
  • 50 ~ 60 dB,窃窃私语
  • 60 ~ 75 dB,正常谈话
  • 80 ~ 85 dB,最优秀的监听音量
  • 90 dB,工厂车间噪声,长时间暴露在此音量中有损听力
  • 100 dB,婴儿啼哭
  • 110 dB,割草机工作噪声、车辆鸣笛
  • 120 dB,人类听感痛阈,有损听力
  • 140 dB,鼓槌从距离鼓皮 1 米处落下,强击军鼓
  • 150 ~ 160 dB,喷气式飞机发动机噪声

1.2 频率

声波每秒循环往复的次数,称为频率。

如果你学习乐器,你可能把乐器的标准音 A 定在 440 上。这里的 440 ,指的是声波的频率。

频率的单位是赫兹(Hz)。人类对频率的听音范围是 20 ~ 20000 Hz。频率直接与音高有关,不同的乐器有着不同的频率范围。下图可以帮助你确定不同乐器的频率范围,以及钢琴每个音符所对应的基本频率。钢琴最低音是 A,对应频率 27.5 Hz。我们可以用 “均衡器(EQ)” 来对某频率或者某频率区间的振幅进行提升或者衰减。

image

不同的频率区域有各自明确的听感特点,通常会有一些常用的形容词来描述这些不同的区域。

低频:20 ~ 200 Hz 多被认为是低频。低频的方向性比较弱,具有力量感,听感体积比较大。另外,如果录音作品中的低频太多,对于音响整体效果具有毁灭性作用。

中频:中频常被定义在 200Hz ~ 5kHz 之间的区域,这是人耳最为敏感的听音区域。中频的方向性比低频要好,同时,它会使音频听上去更 “贴脸”、更具有冲击感、更锋利。如果录音作品中,中频不足,会导致整体声音昏暗、冷淡、柔弱;而中频过度的话,则可能过早导致耳朵疲惫。

高频:高频通常在 5kHz ~ 20kHz 之间,它具有明显的方向性。提升高频区域会让声音更具空气感、更明亮、更灿烂、更薄。该频段所含能量是所有频率上最弱的。高频可以让声音具有临场感,并且不会增加耳朵的疲劳感。缺少高频的声音,会显得暗淡、有距离感、甚至有可能使整个录音模糊不清。

中频是音乐中信息最大、最重要的频段,所以通常又会把中频再细分为三个区间:

中低频:200Hz ~ 700Hz,暗淡、中空的音色

中中频:700Hz ~ 2kHz,更具攻击性、更有活力的音色

中高频:2 ~ 5 kHz,有临场感的音色

1.3 相位

相位指的是波形上的某质点随波做周期运动时,在某瞬间所处的位置。它与频率有一定关系。相位的计量单位的是 “度”。

同相的两列波相遇时,振幅会叠加,音量提升;而两列波反相相遇时,相互会相互抵消,振幅衰减,使声音消失。这一个概念在现代设备中广泛使用,例如降噪耳机,或者车辆的消音器,它们具有消除外界噪声或者发动机噪声的功效。然而两列波不可能完全同相或者反相,而是随机在 0 ~ 359 度之间。相位的问题可能导致有些频率的音量被增大,而另一些频率音量更小。这种在频率上不同的抵消或者叠加的情况,会导致不同的场景有着不同的声音特色。例如在浴室中唱歌就有种在唱KTV的感觉。

1.4 声速

声速是声音的传播速度。声速在 20 摄氏度下大约是 340 米每秒。声速会随着温度的不同而变化。温度越高,声速越快;温度越低,声速越慢。

1.5 波长

声波上两个相邻波峰之间的距离,即为波长。

用声速除以频率,可以算出波长,也就是两个波峰之间的距离。频率越低,波长越长,能量较大。高频的波长较短,它使得声音的能量较弱,同时更具有方向性。

1.6 谐波

音符的丰满度和声音特点由谐波决定,我们常说,谐波决定音色。乐器的每一个音符,都有它的基本频率,即基波。而谐波,则是与基波 “混合” 在一起的。

基波就是纯的简谐波,但大多数声音除了基波之外,还包含更多频率。在音乐里,乐器的音色由基波和这种乐器独有的谐波组合而成。这也就是为什么各种乐器在弹奏同一个音符时,却有着不同的听感。音色柔滑的乐器,如长笛,由它演奏的音符的基波所激发的谐波要少一些,这使得基波本身听上去更为明显。音色更具棱角的乐器,如小号,声音中暗含更多谐波,而其基波就显得不那么突出了。

谐波的计算也非常简单。例如你在演奏低音提琴上的低音 E,这个音符的基波大约是 41 Hz,通过把这个数字简单地乘以2、3、或者 4 等,我们就可以简单的算出几个谐波频率:82Hz,2次谐波;123Hz,3次谐波;164Hz,4次谐波。

另外,谐波又分偶次谐波和奇次谐波。偶次谐波更加平滑、更悦耳,让听者更舒服;而奇次谐波则更容易让听者烦躁。

1.7 声音包络

声音包络的特性与谐波一样:帮助听众区别两位歌手或者乐器。声音包络包括四个不同的元素:起音(Attack)、衰减(Decay)、保持(Sustain)和释音(Release),整个过程简写为 “ADSR”

image

起音是音符或者声音包络的第一阶段,它定义了声音从静寂到峰值音量这一区间。

衰减是起音之后的阶段,它指声音从峰值衰减到某一音量的中间阶段。

保持是指声音包络在整体过程中,音量维持相对稳定的一个阶段。

最后是释音阶段,指从保持阶段的中等音量恢复到静寂状态的区段。

2. 声音数字化

现实中声波是个连续的量,不能由计算机直接处理,必须将其数字化。

2.1 步骤

将声音数字化的过程通常需要三步:

image

第一、采样。所谓采样就是每隔一段时间去观测声音的值,用不连续的样本替换原本连续的样本。一秒钟内抽取的点越多,获得的信息也就越完整。 采样率 指的是在记录声音时,每秒采样的个数,单位是Hz。

第二、量化,即用数字来表示音频幅度。量化深度,也称为采样精度,是模拟信号转换为二进制数字信号的位数。量化深度越高,采样的数字信号精度越高。比如,量化深度为 16 bit,采样的数字信号幅度就有 2^16 = 65536 个档位。音频量化深度一般有 8 bit、16 bit、20bit、24bit 和 32bit 等。

第三、编码,即将量化后的数字转为二进制。

2.2 声音数字化三要素


采样频率(sample rate)

量化位数(bit depth)

声道数(Number of Channels)

每秒种抽取声音幅度样本的次数

每个采样点用多少二进制位表示数据范围

声音通道的个数

采样率越高,声音质量越高,数据量也越大

量化位数越多,音质越好,数据量也就越大

立体声比单声道表现力更丰富,但数据量翻倍

常用的采样率:
* 8,000 Hz - 电话所用采样率, 对于人的说话已经足够
* 11,025 Hz - AM调幅广播所用采样率
* 22,050 Hz - 无线电广播所用采样率
* 32,000 Hz - miniDV 数码视频 camcorder、DAT (LP mode)所用采样率
* 44,100 Hz - 音频 CD, 也常用于 MPEG-1 音频(VCD, SVCD, MP3)所用采样率

* 8 bit,共 256 个量级,也就是将幅度划分为 256 个等级
* 16 bit,共 65536 个量级,达到了CD的标准
* 32 bit,共 4294967296 个量级,完全超出人耳的辨识范围了。

* 单声道并非意味着只有一个喇叭发声,通常会处理成两个喇叭输出同一个声道的声音
* 立体声两个喇叭都发声(通常左右声道有分工),更能感受到空间效果。
* 除了单双声道外,还有其他的更多声道,例如 5.1 、7.1 等等

3. 数据格式

3.1 Planar 与 Interleave

Planar和Interleave描述了pcm数据的格式
Planar: 左右声道分开存放,先放左声道后再接着右声道

L1 L2 .... L1024 R1 R2 .... R1024

Interleave 左右声道数据交织存放

L1 R1 L2 R2 .... L1024 R1024