音视频系列-音频基础

声音简介

定义：声音(wiki) 是振动产生的声波，通过介质（气体、固体、液体）传播并能被人或动物听觉器官所感知的波动现象。
本质：声音是一种机械波。

声音三要素

音调：声音的频率（音频），儿童 > 女生 > 男生
音量：振动的幅度（振幅），也称为音高
音色(wiki)：声音的波形，本质是谐波(wiki)，也称为音品，与材质有很大关系

图示：

pitch and loudness

timbre

心理声学

心理声学(wiki) 是研究人对声音感知的学科，即研究人对声音（包括言语和音乐）的生理和心理反应的科学。

听觉/发声范围

hearing range

heading and sounding range

音频量化

量化过程

audio quantification

基本概念

采样大小：一个采样用多少bit存放。常用16bit
采样率：采样频率 8k、16k、32k、44.1k、48k
声道数：单声道、双声道、多声道

码率计算

码率 = 采样率 × 采样大小 × 声道数

如：
采样率为44.1kHz，采样大小为16bit，双声道PCM编码的WAV文件
码率 = 44.1k × 16 × 2 = 1411.2kb/s = 176.4KB/s

音频压缩

音频压缩(wiki) 属于数据压缩的一种，用以减少音频流媒体的传输带宽需求与音频档案的存储大小。

压缩方法

无损压缩

保留原始文件的所有信息，在播放上与原始文件没有任何差别。

利用 信息冗余 进行数据压缩，是一个可逆的过程。

有损压缩

对原始文件的一些信息做一些近似处理，以得到更小的文件。

将人类心理学、听觉系统的识别都纳入压缩结果的考量，是一个不可逆的过程。
人耳听觉范围外的音频信号，以及被掩蔽掉的音频信号。

掩蔽效应

掩蔽效应(wiki)：听觉系统对一种声音的感知被另一种声音所阻碍的现象。

频域掩蔽

一种声音被另一种同时发出的声音所掩盖。

frequency masking

时域掩蔽

发生在时间上相邻的声音之间的掩蔽。

temporal masking

音频编码

编码过程

encoded process

音频文件格式

音频文件格式(wiki)：存放音频数据的文件的格式。

格式分类

无损格式：如 WAV，FLAC，APE，ALAC，WavPack(WV)
有损格式：如 MP3，AAC，Ogg Vorbis，Opus

性能比较

延迟对比

delay compare

效率对比

efficiency compare

AAC编码

AAC(wiki)：高级音频编码（Advanced Audio Coding），为一种基于MPEG-2的有损数字音频压缩的专利音频编码标准，出现于1997年。

AAC比MP3表现出更好的声音质量，目的是取代MP3格式

常用规格

AAC LC：(Low Complexity) 低复杂度规格
AAC HE V1：(High-Efficiency) AAC LC + SBR（频段复制，Spectral Band Replication）
AAC HE V2：AAC LC + SBR + PS（参数立体声，Parametric Stereo）

aac profile

数据交换格式

ADIF：(Audio Data Interchange Format) 音频数据交换格式，只能从头开始解码，常用在磁盘文件。
ADTS：(Audio Data Transport Stream) 音频传输流格式，每一帧都有一个同步字，可以在音频流的任何位置开始解码，用于数据流传输。

References: