Skip to content

BioMed NoteBook

声音

Harrison-hui/NoteBook

基本概念¶

声音是由振动产生的一种波，通过空气进行传播，由许多不同频率的谐波组成，谐波的频率范围称为声音的“带宽”

计算机处理的声音类型：
话音或语音，专指人的说话声音，带宽仅为300～3400Hz
全频带声音(如音乐声、风雨声、汽车声等)，其带宽可达到20Hz～20kHz
人耳可听到的声音统称“可听声”，带宽为20Hz～20kHz

数字化¶

取样把时间上连续的信号转换成时间上离散的信号
量化（模数转换）把每个样本从模拟量转换成为数字量(8位或16位整数表示)
编码将所有样本的二进制代码组织在一起，并进行数据压缩，目的是为了降低存储成本和提高在网络上的传输效率
全频带声音国际标准MPEG；工业标准Dolby AC-3
数字语音固定电话使用ADPCM编码；手机使用高效率的混合编码技术

所谓“MP3音乐”，它是一种采用MPEG-1层3编码的高质量数字声音, 压缩比大约10～12倍，使一张普通CD光盘上可以存储大约100首MP3歌曲，可连续播放10小时

重建¶

把声音从数字形式转换成模拟信号形式，由**声卡**完成

解码把压缩编码的数字声音恢复为压缩编码前的状态
数模转换把声音样本从数字量转换为模拟量
插值把时间上离散的一组样本转换成在时间上连续的模拟声音信号

播放¶

将模拟声音信号经处理和放大后送到**音箱(扬声器)**

普通音箱接收的是重建的模拟声音信号
数字音箱直接接收数字声音信号，失真更小

参数¶

声音类型	声音信号带宽(Hz)	取样频率(kHz)	量化位数(bits)	声道数	未压缩时的码率
数字语音	300～3400	8	8	1	64 kb/s
CD立体声	20～20000	44.1	16	2	1411.2 kb/s

取样频率
语音的取样频率低，一般为8kHz
全频带声音（如音乐）的取样频率高，一般为44.1kHz
量化位数通常为8位、12位或16位
声道数目单声道为1，双声道为2
码率(比特率) 每秒钟的数据量
未压缩码率 = 取样频率 × 量化位数 × 声道数
压缩后压缩后的码率 = 未压缩时的码率/压缩比

Comments