基本概念¶
声音是由振动产生的一种波,通过空气进行传播,由许多不同频率的谐波组成,谐波的频率范围称为声音的“带宽”
-
计算机处理的声音类型:
-
话音或语音,专指人的说话声音,带宽仅为300~3400Hz
-
全频带声音(如音乐声、风雨声、汽车声等),其带宽可达到20Hz~20kHz
-
人耳可听到的声音统称“可听声”,带宽为20Hz~20kHz
数字化¶
-
取样 把时间上连续的信号转换成时间上离散的信号
-
量化(模数转换) 把每个样本从模拟量转换成为数字量(8位或16位整数表示)
-
编码 将所有样本的二进制代码组织在一起,并进行数据压缩,目的是为了降低存储成本和提高在网络上的传输效率
-
全频带声音 国际标准MPEG;工业标准Dolby AC-3
-
数字语音 固定电话使用ADPCM编码;手机使用高效率的混合编码技术
所谓“MP3音乐”,它是一种采用MPEG-1层3编码的高质量数字声音, 压缩比大约10~12倍,使一张普通CD光盘上可以存储大约100首MP3歌曲,可连续播放10小时
重建¶
把声音从数字形式转换成模拟信号形式,由**声卡**完成
-
解码 把压缩编码的数字声音恢复为压缩编码前的状态
-
数模转换 把声音样本从数字量转换为模拟量
-
插值 把时间上离散的一组样本转换成在时间上连续的模拟声音信号
播放¶
将模拟声音信号经处理和放大后送到**音箱(扬声器)**
-
普通音箱 接收的是重建的模拟声音信号
-
数字音箱 直接接收数字声音信号,失真更小
参数¶
| 声音类型 | 声音信号带宽(Hz) | 取样频率(kHz) | 量化位数(bits) | 声道数 | 未压缩时的码率 |
|---|---|---|---|---|---|
| 数字语音 | 300~3400 | 8 | 8 | 1 | 64 kb/s |
| CD立体声 | 20~20000 | 44.1 | 16 | 2 | 1411.2 kb/s |
-
取样频率
-
语音的取样频率低,一般为8kHz
-
全频带声音(如音乐)的取样频率高,一般为44.1kHz
-
量化位数 通常为8位、12位或16位
-
声道数目 单声道为1,双声道为2
-
码率(比特率) 每秒钟的数据量
-
未压缩 码率 = 取样频率 × 量化位数 × 声道数
-
压缩后 压缩后的码率 = 未压缩时的码率/压缩比


