声音信号处理笔记(一)

声音信号处理（Audio Signal Processing）笔记

什么是声音?

声音是一种由振源(vibrating source)造成的机械波(mechanical waves).
波(waves)的定义: 波是一种传递能量的移动扰动(traveling disturbance (oscillation)), 波将能量从一个地方带往另一个地方.
机械波(mechanical waves)需要介质(medium)来传播, 电磁波(Electromagnetic waves)不需要介质进行传播。
独立的空气分子不会随着波移动，一个给定的分子只会在一个固定的地点前后振动。
声音是一种纵波(longitudinal wave).
纵波(longitudinal wave): 纵波的扰动(disturbance)发生在平行(parallel)于波传递的方向.
横波(transverse wave): 横波的扰动(disturbance)发生在垂直(perpendicular)于波传递的方向.
纵波和横波的区别:

声波是一种交替(alternating)空气高压区(high-pressure region)和低压区( low-pressure)的波。

振动物体压缩周围的空气(高压)区域。
把空气推开，留下一个空气(低压)区域。
然后再次压缩，创建一个周期模式。

增加压力的区域叫做压缩(compression).
内向运动(inward motion, 代表了从高压到低压, 因为是向着坐标轴的方向接近)则产生了一个稀薄区(rarefaction), 这个区域的气压比平常稍微小一些

移动的空气粒子不会离开，它们会围绕着空间中的一个点震动。
震动的频率叫做频率(frequency), 单位是代表每秒多少个周期(cps或者Hz)。

声音吸收系数

一个材料的声音吸收系数(sound absorption coefficient)是被吸收声音的(absorbed sound)强度比上入射声音的(incident sound)强度。

声音吸收系数α对于不同的材料会随着声音频率的不同而变化。
一个区域的总声音吸收量
由一个区域内的不同材料或平面的声音吸收系数乘上它们的平面面积最后累加得到。

α1、α2、αn … : 代表了区域内不同平面/材料的声音吸收系数。
S1、S2 … : 代表了不同平面的面积。
A的单位：㎡Sabins

回声

被刚性表面反射的声音叫做回声(echo)。
回声在声源停止震动以后还会存在。

声波的几种性质

传输(transmission): 声波由障碍物分子震动携带并发射。
反射(reflection): 声波会被刚性表面反射。
折射(refraction): 声音从一个介质到另一个介质的时候会产生弯曲。
衍射(diffraction): 当声音的波长小于障碍物的缝隙大小时会发生衍射。
吸收(absorption): 声音在障碍物分子之间转移的时候会损失一部分能量，转变为热能。
散射(scattering): 从一个表面散射波。

混响

混响(reverberation)是所有反射的总和。
一个不吸收任何声音能量的墙被叫做刚性墙(ragid wall)。
一个吸收所有声音能量的墙被叫做柔性墙(soft wall)。
混响时间常数(reverberation time constant): 是指一个固定的声音在停止后衰减60dB的分贝需要的时间。
混响时间常数和房间的体积成正比：T∝V (V指房间的体积)。
混响时间常数和房间吸收总量成反比：T∝1/A。
赛宾定律(Sabine Law):
T=K*V/A。
K为常数: 0.049(sec/ft)
或者0.161(sec/m)
V是房间的体积(m³或者ft^3)
A是房间的声音总吸收量(㎡或者ft^2)
混响例子: 解决观众台混响时间过长问题
假设一个观众台高40英尺(ft)，长100英尺，宽60英尺。墙和天花板是用石膏板做的(吸音系数α = 0.1)，地板是针织的地毯做的(吸音系数α = 0.4)。
前提条件：1. 忽略椅子和其他的房间内的物品。
2. 假设声音在不同介质中的频率不变。
题目：1. 求出观众台的混响时间。
2. 假设使用1英寸厚的穿孔瓷砖(吸音系数α = 0.7)对观众台进行改造使混响时间降低到1.5秒以内，那么需要多少面积的吸音瓷砖才可以。

先根据公式A = αS 可以得到，地板的吸音量是: 0.4x100x60 = 2400
天花板的吸音量是: 0.1x100x60 = 600
两面侧边的墙的吸音量是: 2x0.1x100x40 = 800
两面前后的墙的吸音量是: 2x0.1x60x40 = 480
由此可以得出观众台总的吸音量是 2400 + 600 + 800 + 480 = 4280
再算出观众台的体积为: 40x60x100 = 240000ft³
最后根据赛宾定律得出混响时间为: T = 0.049x240000/4280 ≈ 2.7 sec
首先求出混响时间为1.5秒时需要多少吸音量: A= KxV/T,
A = 0.049x240000/1.5 ≈ 7800
因为观众台已经有大约4300的吸音量，所以得出还需要7800-4300 = 3500的吸音量
所以计算出S = 3500/0.7 = 5000 ft²
所以还需要5000平方英尺的穿孔瓷砖才可以把混响时间降低到1.5秒以内。

塞宾公式的扩展形式也考虑了温度和湿度等一些因素。

m为温度、湿度和一些与频率有关的参数。

声音的物理尺寸

振幅(Amplitude): 声波的高度
频率(Frequency): 每秒多少个周期
波长(Wavelength): 一个周期行进的距离

振幅

振幅是对由声波引起的大气压变化的程度的测量。
声压的单位是帕斯卡(Pascals)。
1帕斯卡(Pa)等于1牛顿(Newtonk)的力作用在一平方米的面积上。
测量振幅
一个正弦波的平均振幅是0
替代的测量方法:
峰值-峰值振幅(peak-to-peak): 测量两个峰值(正向峰值和负向峰值)之间的差值
均方根振幅(Root-mean-squared RMS): 振幅平方的平均值

声音强度

声音强度(sound intensity)，与信号的能量(energy)和传播的面积(area)有关。
强度: 一个区域的能量流动速率。
单位是(瓦特/平方米) (Watts/㎡)
强度和我们感知的声音的大小有关
声音从源点产生一个球形波，声音的功率不变，随着声波的传播球形波的面积增大，声音的强度减小。
I = Power/Area = Power/4πr²(球的面积为: 4πr²)

任何距离声源相同距离的点的声音强度都相同。
平方反比定律(Inverse square Law):
围绕一个与源保持恒定距离的点移动不会产生强度的变化。
虽然声音的功率保持不变，但当你远离源时，所覆盖的区域会变得更大，因此强度降低。
声压等级(sound pressure level)
人类的绝对听力临界点(也是计算分贝的参考声压和参考声音强度)是:
$P_0$ = 0.00002(Pa) = 20(μPa)
$I_0$ = 1 x $10^{-12}$ (W/m²)
声压等级的替代测量(相对测量)公式:
L = 10log $_{10}$ $\over I_0}$ 单位是分贝(decibels), 也就是分贝db。
注：I是测量声音强度， $I_0$ 是参考声音强度，也就是1 x $10^{-12}$
分贝(Decibel)是一个代表一个测量值和一个参考值之间的log比值的无单位数量。
声音测量可以是:
P: 气压(Pa)
W: 功率(Watts)
I: 强度(W /m²)
公式例子: L = 10log $_{10}$ $\over P_0}$ L = 10log $_{10}$ $\over I_0}$
分贝提供了一个对声音强度的相对测量(relative measure)
几种测量的参数：

对于不同声源的多个声音：
强度是可以累加的。
I $_{total}$ = I $_1$ + I $_2$ + … + I $_N$ (注：因为声音强度是功率/面积，所以把所有声源的功率相加)
声压等级是不能累加的。
L $_{total}$ = 10log $_{10}$ I $_{total}$ / I $_{0}$
L $_{total}$ = 10log $_{10}$ (10^(L $_1$ /10) + 10^(L $_2$ /10) + … + 10^(L $_N$ /10)
强度变为两倍，声压等级增加3分贝。
声压例子: 假设一个声源1产生70db的声压等级，一个声源2产生73db的声压等级，那么两个声源产生的声音强度的比率是多少。
3 = L2 - L1 = 10log $_{10}$ ${I_2 \over I_0}$ - 10log $_{10}$ ${I_1 \over I_0}$ = 10log $_{10}$ ${I_2 \over I_1}$
10 $^{0.3}$ = ${I_2 \over I_1}$
${I_2 \over I_1}$ ≈ 2
对于相同强度的声源相加对声压等级的增加变化(因为声音的强度可以累加，和增加声音的强度同样的原理)。
$\Delta$ L = 10log $_{10}$ n ( $\Delta$ L是声压等级变化的数值，n是声源的数量)

声音频率

循环(Cycle)：振动物体的单次推拉(即一个sin周期)。
周期(Period)：一个循环所发生的时间。
频率(Frequency): 一秒内的循环次数。
f = $\over T}$
最简单的声波 - 纯音(pure tones)

声波频率小于20Hz的是次声波(infrasonic)。
声波频率大于20kHz的是超声波(ultrasonic)。
谐波(harmonic)
大部分振源不会只用一种频率振动
在管道内的振动形成了驻波
在管道内适合的最长波(频率最低)是基音F $_0$ 。
其它适合的声波是泛音(overtones/partials/harmonic)

波长(Wavelength)

波长是声波周期的长度
单位是米(m)
周期(T)、速率(V)和声波波长(λ)之间的关系是: v = λF, F是频率
比声音慢的速度是亚音速(subsonic)。
比声音快的速度是超音速(supersonic)。
声音在无孔(non-poros)固体中传播比空气中快。
声音在高温环境(分子之间的碰撞频率更快)中比在低温环境中传播快。

声音的感知尺寸

不同频率相同声音大小(Loudness)的轮廓。
相同的声压等级下中间的频率声音更大(图像纵坐标应为声压等级spl)
图中红线的单位是方(phon)。
根据定义在1kHz的频率下, 1phon = 1db
每增加10 phon = 1 sone，每个sone是原声音的2倍大小

临界频带(critical band)

临界频带是指一个频率区域，在这个区域内的声音能量是一体的。
两个相近的频率如果在一个临界频带中则激活耳朵的相同区域，因此听起来声音的大小是一样的。
两个频率如果差别比较大，不在一个临界频带重则听起来声音可能更大。

一共有24个临界频带，也叫巴克刻度(Bark Scale)。

音高(pitch)

耳朵对低频下的频率差异比高频下的频率差异更敏感。
音高和频率不是线性相关的。
刚能察觉到的差异的音高(Pitch Just-noticeable difference - JND)，是能感知到的频率变化，也叫最小可觉差(Difference limen)。
音高的感知刻度，梅尔刻度(mel scal)。
在其他都相等的前提下，基频F $_0$ 越高，能感知到的音高越高。
音高的感知不需要基频的存在，移除基频音高的感知不变。

音色(Timbre)

不同乐器间的音色差异和它们的频谱包络(spectral envelope)有关。
频谱包络的横坐标为频率，纵坐标为振幅。
声音的音色也和它们的振幅包络(amplitude envelope)有关。
振幅包络共分为四个阶段，随时间变化。
攻击(attack): 声音从无到有上升到最大强度所需的时间。通常较短
衰退(decay): 声音从攻击阶段下降到维持阶段所需的时间水平。衰变时间通常很短
维持(sustain): 初始振动源继续为声音提供能量的时间。通常感知为持续时间和强度的声音
释放(release): 声音从其维持阶段振动物体停止供能后下降到听不见(inaudibility)的水平。

遮掩(Mask)

遮掩通常发生在一个大的声音(masker)遮盖了一个小的声音(maskee)导致其无法被听到。
遮掩发生在不同的领域:
频率遮掩(Frequency masking): 同时遮盖 - Simultaneous masking
时间遮掩(Temporal masking): 不同时遮盖 - Non-simultaneous masking
频率遮盖：

时间遮盖分为：向前遮盖(Forward Masking)、向后遮盖(Backward Masking)
向前遮盖:

向后遮盖:

能量遮盖(Energetic masking): 能量遮盖发生在当两个声音有相同的频率和相似的时间时间，它们就会竞争听觉神经。
能量遮盖包含了频率遮掩(Frequency masking)和时间遮掩(Temporal masking)
不是能量遮盖的就叫做信息遮盖(informational masking)

声音定位

两耳之间的时间差异(inter-aural timing differences (ITD))。
两耳之间的等级差异(inter-aural level differences (ILD))。
两耳之间的时间差异:

两耳之间的等级差异(也叫两耳之间的强度差异 IID):

头部阴影(head shadow):
高频声波会被人类头部阻挡，从而在头部投下一个阴影(strong ILD cue)。
低频声波很少或不会被人类头部阻挡，所以只会造成很少的声音阴影(weak ILD cue)。

对于高频声波来说，临界ILD约等于1db。
对于低频声波来说，临界ITD约等于10-20μs (~0.7cm)
对于ILD来说，头越大ILD越大；频率越高ILD越大。
对于ITD来说，头越大ITD的范围越大；和频率没有太大关系，可以在很大的频率范围内有效；需要非常精细的时间机制(大概10μs - 20μs左右的敏感度)
注：ILD和ITD不能作为单一的判断声源的位置的依据
单耳提示(monaural cues)
单耳提示能生效大部分是因为外耳的过滤性质
大部分是耳廓(pinnae)的作用。
耳廓可以作为一个方向过滤器的原因：
它以不同的方式放大上方和下方的声音。
它主要作用于高频(5KHz以上)。
肩部反射导致2-3KHz的信号变化。
单耳定位主要帮助分辨声音的海拔(即垂直距离)。
当声音高于海拔线时，听到的频率更高
当声音低于海拔线时，听到的频率更低。

单耳提示被认为是一种耳印(earprints)。
因为不同的外耳形状和大小会造成不同的影响。

头部相关传递函数(Head-related transfer function,HRTF)

头部相关传递函数（HRTF）是一种描述特定耳朵接收来自空间中某个点的声音的函数。
头部相关传递函数:
X $_L$ ( $\omega$ ) = H $_L$ ( $\omega$ , $\theta$ , $\phi$ )X( $\omega$ )
X $_R$ ( $\omega$ ) = H $_L$ ( $\omega$ , $\theta$ , $\phi$ )X( $\omega$ )
$\omega$ 代表频率(frequency)， $\theta$ 代表海拔(elevation)， $\phi$ 代表方位角(azimuth)。
H $_L$ ( $\omega$ , $\theta$ , $\phi$ )和H $_L$ ( $\omega$ , $\theta$ , $\phi$ )代表左和右的HRTF系统。
X $_L$ ( $\omega$ )和X $_R$ ( $\omega$ )代表左耳和右耳收到的信号的傅里叶转换。
X( $\omega$ )代表源信号x(t)的傅里叶转换。
测量一个系统的传递函数包括了表示的输入和测量的输出
HRTF测量的两种方法：
直接方法(Direct method): 广播来自不同的方向测试信号指示记录耳朵入口处接收到的信号(通常使用入耳式麦克风)。
互相交换方法(Reciprocal method): 交换广播和接收的地点(交换输入和输出)。

视听集成(Audio-visual integration)

对声音的感知会受到其他感觉模式的严重影响，尤其是视觉。
麦格效应(McGurk effect)
运动反弹错觉(Motion bounce illusion)
腹语效应(Ventriloquism effect)

相关阅读:
细数SkyEye异构仿真的5大特色
工业互联网：数字化革命的引擎
Kolla-ansible部署openStack
【JVM技术专题】深入分析字节码指令重排序技术「原理篇」
使用curl测试nodejs的http server
NGINX源码之：请求处理
揭示GPU上的批处理策略
【李沐深度学习笔记】自动求导
解决mysql Packet for query is too large
SocketIO介绍+SpringBoot整合SocketIO完成实时通信

原文地址：https://blog.csdn.net/zysp158/article/details/126651193