声音简介

定义:声音(wiki) 是振动产生的声波,通过介质(气体、固体、液体)传播并能被人或动物听觉器官所感知的波动现象。

本质:声音是一种机械波

声音三要素

  • 音调:声音的频率(音频),儿童 > 女生 > 男生
  • 音量:振动的幅度(振幅),也称为音高
  • 音色(wiki):声音的波形,本质是谐波(wiki),也称为音品,与材质有很大关系

图示:

pitch and loudness

timbre

心理声学

心理声学(wiki) 是研究人对声音感知的学科,即研究人对声音(包括言语和音乐)的生理和心理反应的科学。

听觉/发声范围

hearing range

heading and sounding range

音频量化

量化过程

audio quantification

基本概念

  • 采样大小:一个采样用多少bit存放。常用16bit
  • 采样率:采样频率 8k、16k、32k、44.1k、48k
  • 声道数:单声道、双声道、多声道

码率计算

码率 = 采样率 × 采样大小 × 声道数

如:

采样率为44.1kHz,采样大小为16bit,双声道PCM编码的WAV文件

码率 = 44.1k × 16 × 2 = 1411.2kb/s = 176.4KB/s

音频压缩

音频压缩(wiki) 属于数据压缩的一种,用以减少音频流媒体的传输带宽需求与音频档案的存储大小。

压缩方法

无损压缩

保留原始文件的所有信息,在播放上与原始文件没有任何差别。

利用 信息冗余 进行数据压缩,是一个可逆的过程。

有损压缩

对原始文件的一些信息做一些近似处理,以得到更小的文件。

将人类心理学、听觉系统的识别都纳入压缩结果的考量,是一个不可逆的过程。

人耳听觉范围外的音频信号,以及被掩蔽掉的音频信号。

掩蔽效应

掩蔽效应(wiki):听觉系统对一种声音的感知被另一种声音所阻碍的现象。

频域掩蔽

一种声音被另一种同时发出的声音所掩盖。

frequency masking

时域掩蔽

发生在时间上相邻的声音之间的掩蔽。

temporal masking

音频编码

编码过程

encoded process

音频文件格式

音频文件格式(wiki):存放音频数据的文件的格式。

格式分类

  • 无损格式:如 WAV,FLAC,APE,ALAC,WavPack(WV)
  • 有损格式:如 MP3,AAC,Ogg Vorbis,Opus

性能比较

延迟对比

delay compare

效率对比

efficiency compare

AAC编码

AAC(wiki):高级音频编码(Advanced Audio Coding),为一种基于MPEG-2的有损数字音频压缩的专利音频编码标准,出现于1997年。

AAC比MP3表现出更好的声音质量,目的是取代MP3格式

常用规格

  • AAC LC:(Low Complexity) 低复杂度规格
  • AAC HE V1:(High-Efficiency) AAC LC + SBR(频段复制,Spectral Band Replication)
  • AAC HE V2:AAC LC + SBR + PS(参数立体声,Parametric Stereo)

aac profile

数据交换格式

  • ADIF:(Audio Data Interchange Format) 音频数据交换格式,只能从头开始解码,常用在磁盘文件。
  • ADTS:(Audio Data Transport Stream) 音频传输流格式,每一帧都有一个同步字,可以在音频流的任何位置开始解码,用于数据流传输。





References: